วิธีสร้างไฟล์ Robots.txt ที่ดีสำหรับเว็บไซต์ของคุณ

เผยแพร่แล้ว: 2018-07-09

Robots.txt – เป็นหัวข้อทางเทคนิคมากกว่า ไฟล์ Robots.txt อาจเป็นคำใหม่สำหรับคนส่วนใหญ่ อันที่จริง มันเป็นข้อความเล็กๆ ที่กำหนดอนาคตเว็บไซต์ของคุณ

เป็นไปได้อย่างไร?

มันเป็นไปได้. ข้อความขนาดเล็กนี้สามารถควบคุมการเข้าชมไซต์ของคุณได้ หากคุณป้อนผิด หน้าของคุณอาจไม่อยู่ในผลการค้นหา ดังนั้น สิ่งสำคัญคือต้องรู้วิธีใช้อย่างถูกต้อง

เป็นหนึ่งในวิธีการ SEO ที่ง่ายและง่ายที่สุดที่คุณสามารถนำไปใช้กับเว็บไซต์ของคุณได้ ไม่จำเป็นต้องมีความรู้ด้านเทคนิคเพื่อควบคุมพลังของ robots.txt หากคุณสามารถหาซอร์สโค้ดได้ก็เป็นเรื่องง่าย

ไฟล์ Robots.txt

นอกจากนี้ การวาง robots.txt ไว้ที่ใดก็ได้บนเว็บไซต์ก็ไม่ช่วยอะไร ในการนั้น คุณต้องค้นหาซอร์สโค้ดก่อนและเก็บไว้ที่นั่น จากนั้นมีเพียงโปรแกรมรวบรวมข้อมูลเว็บเท่านั้นที่สามารถระบุคำสั่งของคุณและดำเนินการตามนั้น

จากบทความนี้ คุณจะได้คำตอบสำหรับคำถามต่อไปนี้:

  • ไฟล์ robots.txt คืออะไร
  • การใช้ไฟล์ robot.txt
  • มันทำงานอย่างไร?
  • จะสร้างมันขึ้นมาได้อย่างไร?
  • ความสำคัญของไฟล์ robots.txt?
  • สิ่งที่จะรวมไว้ในไฟล์นี้?

ก่อนอื่น ให้ฉันอธิบายคำว่า

ไฟล์ Robots.txt คืออะไร

Robots.txt เป็นไฟล์ข้อความที่อยู่ในไดเรกทอรีรากของเว็บไซต์ มันควบคุมโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาและสไปเดอร์ในการเยี่ยมชมเว็บไซต์หนึ่งๆ นั่นหมายความว่ามันบอกเครื่องมือค้นหาเกี่ยวกับหน้าเว็บไซต์ที่ต้องการเข้าชมหรือไม่เข้าชม

เจ้าของเว็บไซต์ทุกคนพยายามที่จะสังเกตเห็นในปัจจุบัน คุณสามารถทำได้โดยใช้ข้อความขนาดเล็กนี้ ช่วยในการรวมหรือแยกหน้าใดหน้าหนึ่งออกจากผลการค้นหา คุณจะได้รับแนวคิดเกี่ยวกับเรื่องนี้หลังจากอ่านบทความนี้

เมื่อโปรแกรมรวบรวมข้อมูลเข้าถึงไซต์ สิ่งแรกที่ต้องการคือไฟล์ 'robots.txt' หากมีไฟล์ดังกล่าว ให้ไปที่คำแนะนำในการจัดทำดัชนีสำหรับขั้นตอนเพิ่มเติม

หากคุณยังไม่ได้เพิ่มไฟล์ robots.txt เสิร์ชเอ็นจิ้นสามารถรวบรวมข้อมูลในไซต์ของคุณได้ทุกที่และจัดทำดัชนีทุกอย่างที่พบในไซต์ของคุณ แต่ควรระบุแผนผังเว็บไซต์เป็นแนวทางปฏิบัติที่ดี ทำให้เครื่องมือค้นหาสามารถค้นหาเนื้อหาใหม่ได้ง่ายโดยไม่ชักช้า

การใช้ robots.txt:

  • คุณสามารถหลีกเลี่ยงการทำซ้ำหน้าโดยใช้ข้อความนี้
  • หากคุณไม่ต้องการให้เครื่องมือค้นหาจัดทำดัชนีหน้าผลการค้นหาภายในของคุณ คุณสามารถใช้ข้อความนี้
  • ใช้หากคุณไม่ต้องการให้เครื่องมือค้นหาจัดทำดัชนีบางพื้นที่ของหน้าเว็บของคุณหรือทั้งเว็บไซต์
  • คุณสามารถหลีกเลี่ยงการสร้างดัชนีรูปภาพหรือไฟล์บางไฟล์ได้
  • คุณสามารถนำทางเครื่องมือค้นหาไปยังแผนผังไซต์ของคุณ
  • คุณสามารถใช้ความล่าช้าในการรวบรวมข้อมูลเพื่อป้องกันไม่ให้เซิร์ฟเวอร์ทำงานหนักเกินไปเมื่อโปรแกรมรวบรวมข้อมูลโหลดเนื้อหาหลายรายการพร้อมกัน

ใช้ robots.txt เฉพาะเมื่อคุณต้องการควบคุมการเข้าถึงหน้าใดหน้าหนึ่งโดยเฉพาะ ถ้าไม่มีของแบบนั้นก็ไม่ต้องใช้ครับ

ไฟล์ Robots.txt ทำงานอย่างไร:

เครื่องมือค้นหามีสองหน้าที่หลัก

  1. การรวบรวมข้อมูลเว็บไซต์เพื่อค้นหาเนื้อหา
  2. จัดทำดัชนีเนื้อหาที่ให้บริการผู้ค้นหาที่ค้นหาข้อมูลเฉพาะ

เครื่องมือค้นหารวบรวมข้อมูลจากเว็บไซต์หนึ่งไปยังอีกไซต์หนึ่ง ดังนั้นมันจึงรวบรวมข้อมูลจากไซต์หลายพันล้านแห่ง กระบวนการรวบรวมข้อมูลเรียกอีกอย่างว่าแมงมุม

หลังจากมาถึงเว็บไซต์และก่อนที่จะรวบรวมข้อมูลจากเว็บไซต์หนึ่งไปยังอีกเว็บไซต์หนึ่ง โปรแกรมรวบรวมข้อมูลการค้นหาจะค้นหาไฟล์ robots.txt หากพบแล้วโปรแกรมรวบรวมข้อมูลจะอ่านก่อนที่จะดำเนินการต่อในไซต์นั้น ไฟล์ robots.txt นี้มีคำแนะนำสำหรับโปรแกรมรวบรวมข้อมูลเว็บ มันบอกว่าจะไปต่อหรือไม่ หากโปรแกรมรวบรวมข้อมูลไม่พบคำแนะนำหรือข้อมูลเกี่ยวกับสิ่งที่ต้องทำ โปรแกรมจะดำเนินการต่อไป

robots.txt จะไปที่ไหน

Robots.txt เป็นสิ่งแรกที่ WebCrawler หรือเครื่องมือค้นหาจะดูเมื่อเข้าชมไซต์ จะดูเฉพาะในไดเร็กทอรีหลักเท่านั้น หากไม่พบที่นั่น โปรแกรมรวบรวมข้อมูลจะดำเนินการทุกอย่างในไซต์ ดังนั้นจึงจำเป็นต้อง วางไฟล์ robot.txt ไว้ในไดเร็กทอรีหลักหรือโดเมนราก

เพื่ออธิบายสิ่งนี้ เรามาดูตัวอย่างของ wordpress.com หากตัวแทนผู้ใช้เยี่ยมชม www.wordpress.com/robots.txt และหากไม่มีไฟล์โรบ็อต จะถือว่าไซต์ไม่มีคำแนะนำใดๆ ดังนั้นจึงเริ่มสร้างดัชนีแต่ละหน้า หากไฟล์โรบ็อตอยู่ที่ www.wordpress.com /index/robots.text หรือ www.wordpress.com/homepage/robots.txt ตัวแทนผู้ใช้จะไม่พบมัน จะถือว่าเป็นเว็บไซต์ที่ไม่มี robot.txt

ขั้นตอนในการสร้างไฟล์ Robots.txt?

ไฟล์ robots.txt มีสองช่อง หนึ่งบรรทัดมีชื่อตัวแทนผู้ใช้หรือหลายบรรทัดที่มีคำสั่ง บรรทัดที่สองระบุว่าโปรแกรมรวบรวมข้อมูลต้องทำสิ่งใดบนเว็บไซต์ มาดูวิธีสร้างไฟล์ robots.txt กันเถอะ

  • ขั้นตอนแรกคือการเปิดไฟล์ข้อความใหม่ คุณสามารถใช้ Notepad สำหรับพีซีและโปรแกรมแก้ไขข้อความสำหรับ Mac และบันทึกเป็นไฟล์ที่ล้อมรอบข้อความได้
  • อัปโหลดไปยังไดเรกทอรีรากของคุณ เป็นโฟลเดอร์ระดับรูทที่เรียกว่า 'htdocs' หรือ 'www' ดังนั้นสิ่งนี้จึงเกิดขึ้นหลังจากชื่อโดเมนของคุณ
  • หากมีโดเมนย่อยให้สร้างสำหรับแต่ละโดเมนย่อย

นี่คือรูปแบบพื้นฐานของ robots.txt

User-agent : [ชื่อผู้ใช้-ตัวแทน]

Disallow : [ชื่อของ สตริง URL ที่ไม่ต้องรวบรวมข้อมูล]

โดยทั่วไปเรียกว่าไฟล์ robots.txt อาจมีผู้ใช้หลายบรรทัดและคำสั่ง อาจเป็นอะไรก็ได้จากการอนุญาต ไม่อนุญาต ความล่าช้าในการรวบรวมข้อมูล ฯลฯ

ข้อกำหนดทางเทคนิคใน robots.txt:

มีคำทั่วไปที่เกี่ยวข้องกับภาษาของ robots.txt พวกเขาเรียกว่าไวยากรณ์ robots.txt มีการใช้คำหลักห้าคำในไฟล์ robots.txt พวกเขาคือ:

ตัวแทนผู้ใช้ :

User-agent คือโปรแกรมรวบรวมข้อมูลเว็บหรือเครื่องมือค้นหาที่คุณให้คำแนะนำ

ไม่อนุญาต:

คำสั่งนี้ให้คำแนะนำแก่โปรแกรมรวบรวมข้อมูลไม่ให้รวบรวมข้อมูล URL ใด URL หนึ่ง แต่ละ URL สามารถใช้บรรทัดที่ไม่อนุญาตได้เพียงบรรทัดเดียวเท่านั้น

อนุญาต:

คำสั่งนี้ใช้สำหรับ Google Bot เท่านั้น โดยการให้คำสั่งนี้ บ็อต Google สามารถเข้าถึงโฟลเดอร์ย่อยหรือเพจนั้นได้ แม้ว่าจะไม่อนุญาตให้เพจระดับบนสุดก็ตาม

รวบรวมข้อมูลล่าช้า:

ซึ่งระบุเวลารอก่อนที่จะโหลดและรวบรวมข้อมูลเนื้อหาของหน้า มันใช้งานไม่ได้กับบ็อตของ Google แต่คุณสามารถตั้งเวลาสำหรับคอนโซลการค้นหาของ Google ได้

แผนผังเว็บไซต์:

ใช้เพื่อเรียกตำแหน่งของแผนผังเว็บไซต์ XML ที่เชื่อมโยงกับ URL รองรับเฉพาะ Google, Yahoo, Bing และ Ask

คำเหล่านี้เป็นคำทั่วไปที่คุณควรรู้ในไวยากรณ์ของ robot.txt ตอนนี้คุณสามารถคาดเดาคำสั่งได้โดยเพียงแค่เห็นไฟล์ robots.txt

สิ่งที่จะรวมไว้ในไฟล์ Robots.txt

Robot.txt เพียงแค่ให้คำแนะนำสำหรับเว็บโรบ็อตเกี่ยวกับการเข้าถึงหรือไม่เข้าถึงอะไรเลย หากคุณไม่ต้องการแสดงหน้าเว็บใดๆ แก่ผู้ใช้ คุณสามารถบอกทิศทางแก่โปรแกรมรวบรวมข้อมูลได้โดยใช้ไฟล์ robots.txt มิฉะนั้น คุณสามารถป้องกันได้โดยใช้รหัสผ่าน ด้วยวิธีนี้ คุณสามารถซ่อนตำแหน่งของผู้ดูแลระบบหรือเพจส่วนตัวได้ ป้องกันการรวบรวมข้อมูลของโรบ็อตไปยังเพจส่วนตัวเหล่านั้น

ตอนนี้เรามาดูวิธีการทำกันด้วยตัวอย่าง

  • อนุญาตทุกอย่างและส่งแผนผังเว็บไซต์:

นี่เป็นตัวเลือกที่ดีสำหรับทุกไซต์ ซึ่งช่วยให้เครื่องมือค้นหารวบรวมข้อมูลได้ทุกที่และจัดทำดัชนีข้อมูลทั้งหมด นอกจากนี้ยังช่วยให้แสดงตำแหน่ง XML เพื่อให้โปรแกรมรวบรวมข้อมูลสามารถเข้าถึงหน้าใหม่ได้อย่างง่ายดาย

ตัวแทนผู้ใช้:*

อนุญาต: /

#การอ้างอิงแผนผังเว็บไซต์

แผนผังเว็บไซต์: www.wordpress.com/sitemap.xml

  • อนุญาตทุกอย่างยกเว้นไดเรกทอรีย่อยเดียว

บางครั้งจะมีพื้นที่ในหน้าของคุณที่คุณไม่ต้องการแสดงในผลการค้นหา อาจเป็นอะไรก็ได้ เช่น รูปภาพ พื้นที่ชำระเงิน ไฟล์ ส่วนการตรวจสอบ ฯลฯ คุณสามารถไม่อนุญาตได้

ตัวแทนผู้ใช้: *

อนุญาต: /

# ไดเรกทอรีย่อยที่ไม่ได้รับอนุญาต

ไม่อนุญาต: /checkout/

ไม่อนุญาต: /images/

ไม่อนุญาต:/รายงานการตรวจสอบ/

  • อนุญาตทุกอย่างยกเว้นบางไฟล์:-

บางครั้งคุณอาจต้องการแสดงสื่อหรือรูปภาพบนเว็บไซต์ของคุณหรือแสดงเอกสาร แต่คุณไม่ต้องการให้ปรากฏในผลการค้นหา คุณสามารถซ่อนไฟล์ภาพเคลื่อนไหว, ไฟล์ gif, pdf หรือ PHP ได้ตามที่แสดงด้านล่าง

ตัวแทนผู้ใช้:*

อนุญาต: /

#ไม่อนุญาตประเภทไฟล์

ไม่อนุญาต: /*.gif$

ไม่อนุญาต: /*.pdf$

ไม่อนุญาต: /*.php$

  • อนุญาตทุกอย่างนอกเหนือจากบางหน้าเว็บ:-

บางครั้ง คุณอาจต้องการซ่อนบางหน้าที่ไม่เหมาะที่จะอ่าน อาจเป็นอะไรก็ได้จากข้อกำหนดและเงื่อนไขของคุณ หรือหัวข้อที่ละเอียดอ่อนที่คุณไม่ต้องการให้ผู้อื่นดู คุณสามารถซ่อนได้ดังนี้

ตัวแทนผู้ใช้: *

อนุญาต: /

#ไม่อนุญาติให้หน้าเว็บ

ไม่อนุญาต: /terms.html

ไม่อนุญาต:/ secret-list-of contacts.php

  • อนุญาตทุกอย่างยกเว้นรูปแบบ URL บางอย่าง

บางครั้ง คุณอาจต้องการไม่อนุญาตรูปแบบ URL บางรูปแบบ อาจเป็นหน้าทดสอบ หน้าค้นหาภายใน ฯลฯ

ตัวแทนผู้ใช้: *

อนุญาต: /

#ไม่อนุญาตรูปแบบ URL

ไม่อนุญาต: /*search=

ไม่อนุญาต: /*test.php$

ในเงื่อนไขข้างต้นนี้ คุณพบสัญลักษณ์และอักขระมากมาย ฉันกำลังอธิบายความหมายของแต่ละอันจริงๆ

  • สัญลักษณ์ดาว (*) หมายถึงจำนวนอักขระหรืออักขระตัวเดียว
  • สัญลักษณ์ดอลลาร์ ($) ระบุจุดสิ้นสุดของ URL หากคุณลืมใส่ คุณจะบล็อก URL จำนวนมากโดยไม่ได้ตั้งใจ

หมายเหตุ : – ระวังอย่าให้ทั้งโดเมน บางครั้งคุณจะเห็นคำสั่งแบบนี้

ตัวแทนผู้ใช้: *

ไม่อนุญาต: /

คุณรู้ไหมว่าสิ่งนี้หมายถึงอะไร? คุณกำลังบอกให้เครื่องมือค้นหาไม่อนุญาตทั้งโดเมนของคุณ ดังนั้น จะไม่สร้างดัชนีหน้าเว็บใดๆ ของคุณและคุณไม่สามารถอยู่ในผลการค้นหาใดๆ ได้ ดังนั้นระวังอย่าวางสิ่งนี้โดยบังเอิญ

การทดสอบขั้นสุดท้าย:

สิ่งสำคัญคือต้องตรวจสอบว่าไฟล์ robots.txt ของคุณทำงานหรือไม่ แม้ว่าคุณจะทำถูกต้องแล้วก็ตาม ขอแนะนำให้ตรวจสอบอย่างเหมาะสม

คุณสามารถใช้เครื่องมือ robots.txt ของ Google เพื่อค้นหาว่าทุกอย่างลงตัวกับไฟล์ของคุณหรือไม่ ขั้นแรก คุณต้องลงทะเบียนไซต์ที่คุณใช้ไฟล์ robots.txt ใน Google webmaster tool หลังจากลงทะเบียนเข้าสู่เครื่องมือนั้นแล้วเลือกไซต์เฉพาะของคุณ ตอนนี้ Google จะแสดงบันทึกย่อทั้งหมดเพื่อแสดงข้อผิดพลาด

วิธีตรวจสอบว่าเว็บไซต์ของคุณมีไฟล์ robot.txt หรือไม่

คุณสามารถตรวจสอบสิ่งนี้ได้อย่างง่ายดาย ลองมาดูตัวอย่างก่อนหน้าของ word press พิมพ์ที่อยู่เว็บไซต์ของคุณ www.wordpress.com และเพิ่ม /robots.txt ด้วย เช่น www.wordpress.com/robots.txt ตอนนี้คุณสามารถดูว่าเว็บไซต์ของคุณมีไฟล์ roborts.txt หรือไม่

เคล็ดลับอื่น ๆ ของ robot.txt อย่างรวดเร็ว:

  • หากคุณวาง robots.txt ไว้ในไดเร็กทอรีระดับบนสุดของเว็บไซต์ จะง่ายต่อการจดบันทึก
  • หากคุณไม่อนุญาตไดเรกทอรีย่อยใดๆ ไฟล์หรือหน้าเว็บใดๆ ภายในไดเรกทอรีย่อยจะไม่อนุญาต
  • Robots.txt คำนึงถึงขนาดตัวพิมพ์ คุณต้องป้อนเป็น robots.txt มิฉะนั้นจะไม่ทำงาน
  • ตัวแทนผู้ใช้บางรายอาจเพิกเฉยต่อไฟล์ robots.txt ของคุณ โปรแกรมรวบรวมข้อมูลบางตัวเช่นแครปเปอร์อีเมลหรือหุ่นยนต์มัลแวร์ ฯลฯ อาจเพิกเฉยต่อไฟล์นี้
  • /robots.txt เป็นแบบสาธารณะ ดังนั้นจึงเป็นการดีกว่าที่จะไม่ซ่อนข้อมูลส่วนตัวของผู้ใช้ หากคุณเพิ่ม /robots.txt ต่อท้ายโดเมนราก คุณจะเห็นหน้าเว็บที่คุณต้องการรวบรวมข้อมูลหรือไม่ต้องการรวบรวมข้อมูล หากมีไฟล์ robot.txt
  • เครื่องมือค้นหาใช้เวลาหลายวันในการระบุ URL ที่ไม่อนุญาตและนำออกจากดัชนี
  • แต่ละโดเมนย่อยในรูทใช้ไฟล์ robots.txt แยกกัน ตัวอย่างเช่น blog.wordpress.com และ wordpress.com ใช้ไฟล์ robots.txt แยกกัน เช่น blog.wordpress.com/robots.txt และ wordpress.com/robots.txt
  • เป็นการดีกว่าที่จะเพิ่มตำแหน่งลงในแผนผังเว็บไซต์ที่ด้านล่างของไฟล์ robots.txt

คุณมีแนวคิดเกี่ยวกับแนวคิดนี้หรือไม่? มันเป็นเรื่องง่ายใช่มั้ย? คุณสามารถใช้สิ่งนี้กับเว็บไซต์ของคุณและปรับปรุงประสิทธิภาพได้ ไม่จำเป็นต้องแสดงทุกอย่างบนไซต์ของคุณ คุณสามารถซ่อนหน้าผู้ดูแลระบบหรือข้อกำหนดและเงื่อนไข ฯลฯ จากผู้ใช้ ไฟล์ Robots.txt จะช่วยคุณได้ ใช้อย่างชาญฉลาดเพื่อระบุแผนผังเว็บไซต์และทำให้การจัดทำดัชนีเว็บไซต์ของคุณเร็วขึ้น

Robot.txt ไม่ได้เป็นเพียงเกี่ยวกับการไม่อนุญาตเนื้อหาหรือไฟล์ที่ไม่ต้องการเท่านั้น มันสำคัญมากสำหรับการดาวน์โหลดที่เร็วขึ้นเช่นกัน คุณสามารถทำสิ่งนี้ได้อย่างง่ายดาย ไม่มีอะไรเกี่ยวข้องกับความรู้ทางเทคนิคที่จะทำงานนี้ ทุกคนสามารถทำได้หลังจากการวิเคราะห์ที่ดีมาก หลังจากใช้แล้ว อย่าลืมทดสอบด้วยเครื่องมือ Google.robot.txt ช่วยให้คุณระบุว่ามีข้อผิดพลาดในข้อความที่คุณเพิ่มหรือไม่

การปรับปรุงตัวเองในทุกด้านของ SEO เป็นสิ่งสำคัญมาก เมื่อคุณอยู่ในตลาดที่มีการเปลี่ยนแปลงใหม่ๆ ทุกวัน คุณต้องรู้ทุกอย่างที่เกิดขึ้นรอบตัวคุณ พยายามใช้เทคนิคที่ทันสมัยที่สุดเพื่อทำให้ไซต์ของคุณประสบความสำเร็จอย่างมาก