สุดยอดคู่มือสำหรับ Robots.txt สำหรับ SEO

เผยแพร่แล้ว: 2021-12-29

Robots.txt เป็นไฟล์ที่คุณสามารถสร้างเพื่อควบคุมการรวบรวมข้อมูลเว็บไซต์ของคุณ

เป็นการใช้งานจริงของ Robots Exclusion Protocol ซึ่งสร้างขึ้นเพื่อ ป้องกันไม่ให้โปรแกรมรวบรวมข้อมูลเว็บจากเว็บไซต์ที่มีคำขอมากเกินไป

เจ้าของบริการอาจไม่สะดวกหากโปรแกรมรวบรวมข้อมูลเข้าชมพื้นที่ URI ทั้งหมดของตน เอกสารนี้ระบุกฎที่กำหนดไว้แต่เดิมโดย "Robots Exclusion Protocol" ซึ่งโปรแกรมรวบรวมข้อมูลต้องปฏิบัติตามเมื่อเข้าถึง URI
ที่มา: Robots Exclusion Protocol

แม้ว่าเว็บไซต์ของคุณไม่จำเป็นต้องใช้ robots.txt แต่การมีเครื่องมือหนึ่ง อาจส่งผลดีต่อธุรกิจของคุณด้วยการเพิ่มประสิทธิภาพวิธีที่บอทของเครื่องมือค้นหารวบรวมข้อมูลเว็บไซต์ของคุณ

จากรายงานของ Web Almanac ประจำปี 2021 พบว่า ประมาณ 16,5% ของเว็บไซต์ไม่มีไฟล์ robots.txt เลย นอกจากนี้ ไม่ใช่ทุกคนที่นำไปใช้อย่างถูกต้อง

เว็บไซต์อาจมีไฟล์ robots.txt ที่กำหนดค่าไม่ถูกต้อง ตัวอย่างเช่น เว็บไซต์ยอดนิยมบางแห่ง (อาจเข้าใจผิด) บล็อกเครื่องมือค้นหา Google อาจจัดทำดัชนีเว็บไซต์เหล่านี้ไว้เป็นระยะเวลาหนึ่ง แต่ในที่สุดการมองเห็นในผลการค้นหาจะลดลง
ที่มา: Web Almanac

การใช้ robots.txt อย่างไม่เหมาะสมอาจเป็นข้อผิดพลาดเล็กน้อยหรือมีค่าใช้จ่ายสูง ทั้งนี้ขึ้นอยู่กับขนาดของเว็บไซต์ของคุณ

บทความนี้จะแสดง วิธีสร้างไฟล์ robots.txt และหลีกเลี่ยงข้อผิดพลาดที่อาจเกิดขึ้น

เนื้อหา ซ่อน
1 robots.txt คืออะไร
1.1 1. หน้าที่ถูกบล็อกจากการรวบรวมข้อมูลอาจยังคงได้รับการจัดทำดัชนี
1.2 2. คุณไม่สามารถบังคับโรบ็อตให้ปฏิบัติตามกฎใน robots.txt
2 ทำไมคุณถึงต้องการไฟล์ robots.txt
3 วิธีแก้ไขไฟล์ robots.txt
4 Robots.txt ไวยากรณ์
4.1 ตัวแทนผู้ใช้
4.2 คำสั่ง
4.2.1 ไม่อนุญาต
4.2.2 อนุญาต
4.2.3 แผนผังเว็บไซต์
4.2.4 ความล่าช้าในการรวบรวมข้อมูล
4.2.5 ความคิดเห็นใน robots.txt
4.2.6 สัญลักษณ์แทน
5 การทดสอบไฟล์ robots.txt
6 Robots.txt เทียบกับ Meta Robots Tag กับ X-Robots-Tag
7 แนวทางปฏิบัติ ที่ดีที่สุด

robots.txt คืออะไร

Robots.txt เป็นไฟล์ข้อความธรรมดาที่คุณสามารถวางบนเซิร์ฟเวอร์ของคุณเพื่อควบคุมวิธีที่บอทเข้าถึงหน้าเว็บของคุณ ประกอบด้วยกฎสำหรับโปรแกรมรวบรวมข้อมูล ซึ่งกำหนดว่าหน้าใดควรหรือไม่ควรรวบรวมข้อมูล

ไฟล์ควรอยู่ที่ไดเร็กทอรีรากของเว็บไซต์ของคุณ ตัวอย่างเช่น หากเว็บไซต์ของคุณชื่อ domain.com ไฟล์ robots.txt ควรอยู่ที่ domain.com/robots.txt

แต่ไฟล์ทำงานอย่างไร บอทค้นพบได้อย่างไร

โปรแกรมรวบรวมข้อมูลคือโปรแกรมที่รวบรวมข้อมูลเว็บ มีการใช้งานที่หลากหลาย แต่เสิร์ชเอ็นจิ้นใช้เพื่อค้นหาเนื้อหาเว็บเพื่อสร้างดัชนี กระบวนการนี้สามารถแบ่งออกเป็นสองสามขั้นตอน:

  1. โปรแกรมรวบรวมข้อมูลมีคิวของ URL ที่มีทั้งเว็บไซต์ใหม่และเว็บไซต์ที่รู้จักก่อนหน้านี้ซึ่งพวกเขาต้องการรวบรวมข้อมูล
  2. ก่อนที่จะรวบรวมข้อมูลเว็บไซต์ โปรแกรมรวบรวมข้อมูลจะค้นหาไฟล์ robots.txt ในไดเรกทอรีรากของเว็บไซต์ก่อน
  3. หากไม่มีไฟล์ robots.txt โปรแกรมรวบรวมข้อมูลจะดำเนินการรวบรวมข้อมูลเว็บไซต์อย่างอิสระ อย่างไรก็ตาม หากมีไฟล์ robots.txt ที่ถูกต้อง โปรแกรมรวบรวมข้อมูลจะค้นหาคำสั่งภายในไฟล์ และดำเนินการรวบรวมข้อมูลเว็บไซต์ตามลำดับ

หากเสิร์ชเอ็นจิ้นไม่สามารถรวบรวมข้อมูลหน้า หน้านั้นก็ไม่สามารถจัดทำดัชนี ดังนั้นจึงไม่ปรากฏในหน้าผลการค้นหา

อย่างไรก็ตาม มีสองข้อควรระวัง:

1. หน้าที่ถูกบล็อกจากการรวบรวมข้อมูลอาจยังคงได้รับการจัดทำดัชนี

การไม่อนุญาตการรวบรวมข้อมูลในไฟล์ robots.txt ไม่ได้รับประกันว่าเครื่องมือค้นหาจะไม่จัดทำดัชนีหน้าเว็บ พวกเขาอาจยังคงทำหากพบข้อมูลเกี่ยวกับเนื้อหาในแหล่งอื่นและตัดสินใจว่าเป็นเนื้อหาที่สำคัญ ตัวอย่างเช่น พวกเขาสามารถค้นหาลิงก์ที่นำไปสู่หน้าจากเว็บไซต์อื่น ใช้ anchor text และแสดงบนหน้าผลการค้นหา

2. คุณไม่สามารถบังคับโรบ็อตให้ปฏิบัติตามกฎใน robots.txt

Robots.txt เป็นเพียงแนวทางเท่านั้น ไม่ใช่กฎบังคับ คุณไม่สามารถบังคับบอทให้เชื่อฟังได้ โปรแกรมรวบรวมข้อมูลส่วนใหญ่ โดยเฉพาะอย่างยิ่งที่ใช้โดยเครื่องมือค้นหา จะไม่รวบรวมข้อมูลหน้าใดๆ ที่ถูกบล็อกโดย robots.txt อย่างไรก็ตาม เสิร์ชเอ็นจิ้นไม่ใช่เพียงคนเดียวที่ใช้โปรแกรมรวบรวมข้อมูล บอทที่เป็นอันตรายอาจเพิกเฉยต่อคำแนะนำและเข้าถึงหน้าต่อไป นั่นเป็นเหตุผลที่ คุณไม่ควรใช้ robots.txt เป็นวิธีปกป้องข้อมูลที่ละเอียดอ่อนบนเว็บไซต์ของคุณจากการถูกรวบรวมข้อมูล หากคุณต้องการให้แน่ใจว่าบอทจะไม่รวบรวมข้อมูลเนื้อหาของคุณ การป้องกันด้วยรหัสผ่านจะดีกว่า

ทำไมคุณถึงต้องการไฟล์ robots.txt

Robots.txt ไม่ใช่ส่วนบังคับของเว็บไซต์ของคุณ แต่ส่วนที่ได้รับการปรับให้เหมาะสมที่สุดจะเป็นประโยชน์ต่อเว็บไซต์ของคุณในหลาย ๆ ด้าน

สิ่งสำคัญที่สุดคือสามารถช่วย เพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูลของคุณได้ บอทของเครื่องมือค้นหามีทรัพยากรจำกัด โดยจำกัดจำนวน URL ที่สามารถรวบรวมข้อมูลในเว็บไซต์ที่กำหนด ดังนั้น หากคุณเปลืองงบประมาณการรวบรวมข้อมูลในหน้าที่มีความสำคัญน้อยกว่า อาจมีไม่เพียงพอสำหรับหน้าที่มีค่ามากกว่า หากคุณมีเว็บไซต์ขนาดเล็ก อาจดูเหมือนเป็นปัญหาผิวเผิน แต่ใครก็ตามที่ดูแลเว็บไซต์ขนาดใหญ่จะรู้ว่าการใช้ทรัพยากรของบอทเครื่องมือค้นหาอย่างมีประสิทธิภาพมีความสำคัญเพียงใด

ด้วยไฟล์ robots.txt คุณสามารถ ป้องกันไม่ให้บางหน้า เช่น หน้าคุณภาพต่ำถูกรวบรวม ข้อมูล เป็นสิ่งสำคัญเพราะถ้าคุณมีหน้าเว็บคุณภาพต่ำที่จัดทำดัชนีได้หลายหน้า หน้านั้นอาจส่งผลกระทบต่อทั้งเว็บไซต์ และไม่สนับสนุนให้บอทของเครื่องมือค้นหารวบรวมข้อมูลแม้แต่หน้าคุณภาพสูง

นอกจากนี้ robots.txt ยังให้คุณ ระบุตำแหน่งของแผนผังเว็บไซต์ XML ได้อีกด้วย แผนผังเว็บไซต์คือไฟล์ข้อความที่แสดงรายการ URL ที่คุณต้องการให้เครื่องมือค้นหาจัดทำดัชนี การกำหนดลิงก์ในไฟล์ robots.txt ทำให้บอทของเครื่องมือค้นหาค้นหาได้ง่ายขึ้น

วิธีแก้ไขไฟล์ robots.txt

วิธีแก้ไขไฟล์ robots.txt นั้นขึ้นอยู่กับระบบที่คุณใช้เป็นอย่างมาก

หากคุณกำลังใช้ CMS หรือแพลตฟอร์มอีคอมเมิร์ซ คุณอาจมีสิทธิ์เข้าถึงเครื่องมือหรือปลั๊กอินเฉพาะที่สามารถช่วยให้คุณเข้าถึงและแก้ไขไฟล์ได้อย่างง่ายดาย ตัวอย่างเช่น Wix และ Shopify อนุญาตให้คุณแก้ไข robots.txt ได้โดยตรง สำหรับ WordPress คุณสามารถใช้ปลั๊กอินเช่น Yoast SEO

หากคุณไม่ได้ใช้ CMS หรือแพลตฟอร์มอีคอมเมิร์ซ คุณอาจต้องดาวน์โหลดไฟล์ก่อน แก้ไขแล้วอัปโหลดกลับบนไซต์ของคุณ

คุณสามารถ ดาวน์โหลดไฟล์ได้ หลายวิธี:

  • แสดงไฟล์ในเบราว์เซอร์ของคุณโดยเพิ่ม “/robots.txt” ลงในไดเร็กทอรีรากของคุณ จากนั้นคัดลอกเนื้อหา
  • ใช้เครื่องมือที่มีให้โดยบริการโฮสติ้งของคุณ ตัวอย่างเช่น อาจเป็นแผงเฉพาะสำหรับจัดการไฟล์หรือเข้าถึงผ่านโปรโตคอล FTP
  • ใช้เครื่องมือคอนโซลเช่น cURL เพื่อดาวน์โหลดไฟล์โดยพิมพ์คำสั่งนี้:
 curl https://example.com/robots.txt -o robots.txt
  • ใช้ โปรแกรมทดสอบ robots.txt ของ Google หรือ Bing เพื่อดาวน์โหลดไฟล์ของคุณ

เมื่อคุณดาวน์โหลด robots.txt แล้ว คุณก็สามารถ แก้ไข ได้ในโปรแกรมแก้ไขข้อความที่คุณเลือก เช่น Notepad (Windows) หรือ TextEdit (Mac) ตรวจสอบให้แน่ใจว่าได้เข้ารหัสไฟล์ในมาตรฐาน UTF-8 และจำไว้ว่าต้องตั้งชื่อไฟล์ว่า “robots.txt”

หลังจากแก้ไข robots.txt แล้ว คุณสามารถ อัปโหลดไฟล์ได้ ในลักษณะเดียวกับการดาวน์โหลด คุณสามารถใช้เครื่องมือเฉพาะที่โฮสต์ให้มา ใช้เครื่องมือในตัว CMS หรือส่งไฟล์ไปยังเซิร์ฟเวอร์โดยตรงโดยใช้โปรโตคอล FTP

เมื่อไฟล์ของคุณเผยแพร่สู่สาธารณะแล้ว เครื่องมือค้นหาจะค้นหาได้โดยอัตโนมัติ หากคุณต้องการให้เครื่องมือค้นหาเห็นการเปลี่ยนแปลงทันทีด้วยเหตุผลบางประการ คุณสามารถใช้ตัวเลือกส่งในตัว ทดสอบ robots.txt ของ Google และ Bing

ในระหว่างกระบวนการรวบรวมข้อมูลอัตโนมัติ โปรแกรมรวบรวมข้อมูลของ Google จะสังเกตเห็นการเปลี่ยนแปลงที่คุณทำกับไฟล์ robots.txt ของคุณและอัปเดตเวอร์ชันที่แคชไว้ทุก 24 ชั่วโมง หากคุณต้องการอัปเดตแคชเร็วขึ้น ให้ใช้ ฟังก์ชัน ส่ง ของ ตัว ทดสอบ robots.txt
ที่มา: Google

ไวยากรณ์ Robots.txt

Robots.txt ประกอบด้วยบล็อกข้อความ แต่ละบล็อกเริ่มต้นด้วยสตริง User-agent และกลุ่มคำสั่ง (กฎ) สำหรับบอทเฉพาะ

ต่อไปนี้คือตัวอย่างไฟล์ robots.txt

 ตัวแทนผู้ใช้: *
ไม่อนุญาต: /admin/
ไม่อนุญาต: /ผู้ใช้/

#คำแนะนำเฉพาะสำหรับ Googlebot
User-agent: Googlebot
อนุญาต: /wp-admin/
ไม่อนุญาต: /ผู้ใช้/

#คำแนะนำเฉพาะสำหรับ Bingbot
ตัวแทนผู้ใช้: Bingbot
ไม่อนุญาต: /admin/
ไม่อนุญาต: /ผู้ใช้/
ไม่อนุญาต:/ไม่ใช่สำหรับ Bingbot/
รวบรวมข้อมูลล่าช้า: 10

แผนผังเว็บไซต์: https://www.example.com/sitemap.xml

ตัวแทนผู้ใช้

มีโปรแกรมรวบรวมข้อมูลหลายร้อยรายการที่อาจต้องการเข้าถึงเว็บไซต์ของคุณ นั่นเป็นเหตุผลที่คุณอาจต้องการกำหนดขอบเขตที่แตกต่างกันสำหรับพวกเขาตามความตั้งใจของพวกเขา นี่คือเวลาที่ User-agent อาจมีประโยชน์

User-agent เป็นสตริงข้อความที่ระบุบอทเฉพาะ ตัวอย่างเช่น Google ใช้ Googlebot, Bing ใช้ Bingbot, DuckDuckGo ใช้ DuckDuckBot และ Yahoo ใช้ Slurp เครื่องมือค้นหาสามารถมี User-agent ได้มากกว่าหนึ่งตัว คุณสามารถค้นหา รายการ User-agent ทั้งหมดที่ Google และ Bing ใช้ได้ที่นี่

User-agent เป็นบรรทัดที่จำเป็นในทุกกลุ่มของคำสั่ง คุณสามารถคิดว่ามันเป็นการเรียกบอทตามชื่อของพวกเขาและให้คำแนะนำเฉพาะแก่พวกเขาแต่ละคน คำสั่งทั้งหมดที่ตามหลัง User-agent จะมุ่งเป้าไปที่บอทที่กำหนดไว้จนกว่าจะมีการระบุ User-agent ใหม่

คุณยังสามารถใช้ไวด์การ์ดและให้คำแนะนำแก่บอททั้งหมดในคราวเดียว ฉันจะครอบคลุมไวด์การ์ดในภายหลัง

คำสั่ง

คำสั่งคือกฎที่คุณกำหนดสำหรับบอทของเครื่องมือค้นหา ข้อความแต่ละกลุ่มสามารถมีคำสั่งได้ตั้งแต่หนึ่งคำสั่งขึ้นไป แต่ละคำสั่งต้องเริ่มต้นในบรรทัดที่แยกจากกัน

คำสั่งรวมถึง:

  • ไม่อนุญาต
  • อนุญาต,
  • แผนผังเว็บไซต์
  • รวบรวมข้อมูลล่าช้า

หมายเหตุ: นอกจากนี้ยังมีคำสั่ง noindex ที่ไม่เป็นทางการซึ่งควรระบุว่าไม่ควรจัดทำดัชนีหน้า อย่างไรก็ตาม เสิร์ชเอ็นจิ้นส่วนใหญ่ รวมถึง Google และ Bing ไม่รองรับ ถ้าคุณไม่ต้องการให้บางหน้าได้รับการจัดทำดัชนี ให้ใช้ noindex Meta Robots Tag หรือ X-Robots-Tag header (ฉันจะอธิบายในบทความต่อไป)

ไม่อนุญาต

 User-agent: Googlebot
ไม่อนุญาต: /ผู้ใช้/

คำสั่งนี้ระบุว่าหน้าใดไม่ควรรวบรวมข้อมูล โดยค่าเริ่มต้น บอทของเครื่องมือค้นหาสามารถรวบรวมข้อมูลทุกหน้าที่ไม่ถูกบล็อกโดยคำสั่ง disallow

ในการบล็อกการเข้าถึงหน้าใดหน้าหนึ่ง คุณต้อง กำหนดเส้นทางที่เกี่ยวข้องกับไดเรกทอรีราก

สมมติว่าคุณมีไซต์สองไซต์นี้ในเว็บไซต์ของคุณ:

  • เว็บไซต์.com/products/shoes/item1.html
  • เว็บไซต์.com/products/shirts/item2.html

มาดูตัวอย่างการบล็อกเส้นทางเหล่านี้กัน:

เส้นทาง ถูกบล็อค
ไม่อนุญาต: /item1.html ไม่อนุญาตเฉพาะ /products/shoes/item1.html เท่านั้น
ไม่อนุญาต: /products/ ไม่อนุญาตทั้ง /products/shoes/item1.html และ /products/shirts/item2.html

คุณสามารถไม่อนุญาตให้รวบรวมข้อมูลของทั้งไซต์ได้โดยการเพิ่มสัญลักษณ์ “/” ด้วยวิธีต่อไปนี้:

 User-agent: Googlebot
ไม่อนุญาต: /

อนุญาต

 User-agent: Googlebot
ไม่อนุญาต: /ผู้ใช้/
อนุญาต: /users/very-important-user.html

คุณสามารถใช้คำสั่ง allow เพื่อ อนุญาตการรวบรวมข้อมูลหน้าในไดเร็กทอรีที่ไม่อนุญาต

ในตัวอย่างข้างต้น ทุกหน้าภายในไดเร็กทอรี /user/ ไม่ได้รับอนุญาต ยกเว้นหน้าหนึ่งที่เรียกว่า /very-important-user.html

แผนผังเว็บไซต์

 แผนผังเว็บไซต์: https://website.com/sitemap.xml

คำสั่งแผนผังเว็บไซต์จะระบุตำแหน่งของแผนผังเว็บไซต์ คุณสามารถเพิ่มได้ที่จุดเริ่มต้นหรือจุดสิ้นสุดของไฟล์และกำหนดแผนผังเว็บไซต์มากกว่าหนึ่งรายการ

ไม่เหมือนกับเส้นทางที่กำหนดไว้ในคำสั่งอื่นๆ ให้ เพิ่ม URL แบบเต็มของแผนผังไซต์ของคุณเสมอ รวมถึงโปรโตคอล HTTP/HTTPS หรือเวอร์ชัน www/non-www

ไม่จำเป็นต้องใช้คำสั่งแผนผังเว็บไซต์ แต่ขอแนะนำเป็นอย่างยิ่ง แม้ว่าคุณจะส่งแผนผังเว็บไซต์ใน Google Search Console หรือ Bing Webmaster Tools คุณควรเพิ่มลงในไฟล์ robots.txt เพื่อช่วยให้บอทของเครื่องมือค้นหาทั้งหมดค้นหาได้เร็วขึ้น

รวบรวมข้อมูลล่าช้า

 รวบรวมข้อมูลล่าช้า: 10

บอทของเครื่องมือค้นหาสามารถรวบรวมข้อมูลหน้าเว็บของคุณได้จำนวนมากในระยะเวลาอันสั้น การรวบรวมข้อมูลแต่ละครั้งใช้ทรัพยากรส่วนหนึ่งของเซิร์ฟเวอร์ของคุณ

หากคุณมีเว็บไซต์ขนาดใหญ่ที่มีหลายหน้า หรือการเปิดแต่ละหน้าต้องใช้ทรัพยากรเซิร์ฟเวอร์จำนวนมาก เซิร์ฟเวอร์ของคุณอาจไม่สามารถจัดการคำขอทั้งหมดได้ ด้วยเหตุนี้ จึงมีการใช้งานมากเกินไป และทั้งผู้ใช้และเครื่องมือค้นหาอาจไม่สามารถเข้าถึงไซต์ของคุณได้ชั่วคราว นั่นคือสิ่งที่คำสั่งการชะลอการรวบรวมข้อมูลอาจมีประโยชน์และทำให้กระบวนการรวบรวมข้อมูลช้าลง

ค่าของคำสั่งการชะลอการรวบรวมข้อมูลถูกกำหนดเป็นวินาที คุณสามารถตั้งค่าได้ระหว่าง 1-30 วินาที

สิ่งสำคัญคือต้องสังเกตว่าไม่ใช่ทุกเครื่องมือค้นหาที่ปฏิบัติตามคำสั่งนี้ ตัวอย่างเช่น Google ไม่สนับสนุนการล่าช้าในการรวบรวมข้อมูลเลย

นอกจากนี้ การตีความอาจแตกต่างกันไปตามเครื่องมือค้นหา ตัวอย่างเช่น สำหรับ Bing และ Yahoo Crawl-delay แสดงถึงความยาวของช่องว่างระหว่างหน้าต่างที่บอทสามารถเข้าถึงหน้าได้เพียงครั้งเดียว

สำหรับ Yandex Crawl-delay จะระบุระยะเวลาที่บอทต้องรอก่อนที่จะขอหน้าอื่น

ความคิดเห็นใน robots.txt

 #บล็อกการเข้าถึงส่วนบล็อก
User-agent: Googlebot
ไม่อนุญาต: /บล็อก/

ตัวแทนผู้ใช้: Bingbot
ไม่อนุญาต: /users/ #blocks การเข้าถึงส่วนผู้ใช้

คุณสามารถเพิ่มความคิดเห็นในไฟล์ robots.txt ได้โดยเพิ่มเครื่องหมายแฮช # ที่ต้นบรรทัดหรือหลังคำสั่ง เครื่องมือค้นหาละเว้นทุกสิ่งที่ตามหลัง # ในบรรทัดเดียวกัน

ความคิดเห็นมีไว้สำหรับมนุษย์เพื่ออธิบายว่าส่วนใดส่วนหนึ่งหมายถึงอะไร เป็นความคิดที่ดีเสมอที่จะเพิ่มพวกเขาเพราะจะช่วยให้คุณเข้าใจได้เร็วขึ้นว่าเกิดอะไรขึ้นในครั้งต่อไปที่คุณเปิดไฟล์

คุณสามารถใช้ความคิดเห็นเพื่อเพิ่มไข่อีสเตอร์ลงในไฟล์ robots.txt หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ คุณสามารถดู บทความเกี่ยวกับ การทำให้คำสั่งโรบ็อตของคุณเป็นเรื่องสนุกสำหรับมนุษย์ หรือดูตัวอย่างใน robots.txt ของเรา

ไวด์การ์ด

ไวด์การ์ดเป็นอักขระพิเศษที่สามารถใช้เป็นตัวยึดตำแหน่งสำหรับสัญลักษณ์อื่นๆ ในข้อความ และทำให้ขั้นตอนการสร้างไฟล์ robots.txt ง่ายขึ้น พวกเขารวมถึง:

  • เครื่องหมายดอกจัน * และ
  • เครื่องหมายดอลลาร์ $

เครื่องหมายดอกจันสามารถแทนที่สตริงใดก็ได้

ตัวแทนผู้ใช้: *

ในตัวอย่างข้างต้น เครื่องหมายดอกจันในบรรทัด User-agent ระบุบอทของเครื่องมือค้นหาทั้งหมด ดังนั้นทุกคำสั่งที่ตามมาจะมุ่งเป้าไปที่โปรแกรมรวบรวมข้อมูลทั้งหมด

 ไม่อนุญาต: /*?

คุณยังสามารถใช้เพื่อกำหนดเส้นทาง ตัวอย่างข้างต้นหมายความว่าทุก URL ที่ลงท้ายด้วย “?” ไม่ได้รับอนุญาต

เครื่องหมายดอลลาร์ระบุองค์ประกอบเฉพาะที่ตรงกับส่วนท้ายของ URL

 ไม่อนุญาต: /*.jpeg$

ตัวอย่างข้างต้นระบุว่าทุก URL ที่ลงท้ายด้วย “.jpeg” ไม่ควรได้รับอนุญาต

คุณสามารถใช้ไวด์การ์ดได้ในทุกคำสั่ง ยกเว้นแผนผังเว็บไซต์

การทดสอบไฟล์ robots.txt

คุณสามารถทดสอบด้วยเครื่องมือทดสอบ robots.txt ใน Google Search Console และ Bing Webmaster Tools เพียงพิมพ์ URL ที่คุณต้องการตรวจสอบ จากนั้นเครื่องมือจะแสดงให้คุณเห็นว่าอนุญาตหรือไม่อนุญาต

คุณยังสามารถแก้ไขไฟล์ได้โดยตรงในตัวทดสอบ robots.txt และทดสอบการเปลี่ยนแปลงอีกครั้ง โปรดทราบว่าการเปลี่ยนแปลงจะไม่ถูกบันทึกบนเว็บไซต์ของคุณ คุณต้องคัดลอกไฟล์และอัปโหลดไปยังไซต์ของคุณเอง

หากคุณเชี่ยวชาญด้านเทคโนโลยีมากขึ้น คุณยังสามารถใช้ ไลบรารี robots.txt โอเพ่นซอร์สของ Google เพื่อทดสอบไฟล์ robots.txt ในเครื่องคอมพิวเตอร์ของคุณได้

Robots.txt กับ Meta Robots Tag กับ X-Robots-Tag

Robots.txt ไม่ใช่วิธีเดียวในการสื่อสารกับโปรแกรมรวบรวมข้อมูล คุณยังสามารถใช้ Meta Robots Tag และ X-Robots-Tag

ความแตกต่างที่สำคัญที่สุดคือความจริงที่ว่า robots.txt ควบคุมการรวบรวมข้อมูลของเว็บไซต์ ในขณะที่ Meta Robots Tag และ X-Robots-Tag ช่วยให้คุณควบคุมการจัดทำดัชนีได้

เหนือสิ่งอื่นใด วิธีการเหล่านี้ก็แตกต่างกันไปตามวิธีการนำไปใช้

การดำเนินการ
Robots.txt เพิ่มไฟล์ข้อความอย่างง่ายที่ไดเร็กทอรีรากของเว็บไซต์ของคุณ
แท็กโรบ็อต Meta เพิ่มแท็ก HTML ในส่วน <head> ของโค้ด
X-Robots-แท็ก ส่วนของส่วนหัวการตอบสนอง HTTP ที่เพิ่มในฝั่งเซิร์ฟเวอร์

เมื่อบ็อตเครื่องมือค้นหาพบหน้า อันดับแรกจะดูในไฟล์ robots.txt หากไม่อนุญาตให้รวบรวมข้อมูล ก็สามารถเข้าถึงเว็บไซต์ได้ จากนั้นจึงค้นหา Meta Robots Tags หรือส่วนหัว X-Robots-Tag ที่เป็นไปได้ สิ่งสำคัญที่ต้องจำไว้ด้วยเหตุผลสองประการ:

  1. การรวมวิธีการต่างๆ – บอทของเครื่องมือค้นหาจะต้องได้รับอนุญาตให้รวบรวมข้อมูลหน้าเพื่อดู Meta Robots Tag และ X-Robots-Tag หากบ็อตเข้าถึงหน้าไม่ได้ บอทจะทำงานไม่ถูกต้อง
  2. การเพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูล – ในสามวิธีนี้มีเพียง robots.txt เท่านั้นที่สามารถช่วยคุณประหยัดงบประมาณการรวบรวมข้อมูลได้

ปฏิบัติที่ดีที่สุด

ต่อไปนี้คือแนวทางปฏิบัติและเคล็ดลับที่ดีที่สุดบางส่วนขณะสร้างไฟล์ robots.txt:

  • อย่าบล็อกไฟล์ JavaScript หรือ CSS ของคุณโดยใช้ robots.txt บอทอาจแสดงผลเนื้อหาของคุณไม่ถูกต้องหากเข้าถึงทรัพยากรเหล่านี้ไม่ได้
  • ตรวจสอบให้แน่ใจว่าได้เพิ่มลิงก์ไปยังแผนผังไซต์ของคุณเพื่อช่วยให้บอทของเครื่องมือค้นหาทั้งหมดค้นหาได้ง่าย
  • การตีความไวยากรณ์ของ robots.txt อาจแตกต่างกันไปตามเครื่องมือค้นหา ตรวจสอบอีกครั้งเสมอว่าบอทของเครื่องมือค้นหาจัดการกับคำสั่งเฉพาะอย่างไรหากคุณไม่แน่ใจ
  • ระวังเมื่อใช้ไวด์การ์ด หากคุณใช้งานในทางที่ผิด คุณอาจบล็อกการเข้าถึงทั้งส่วนของไซต์ของคุณโดยไม่ได้ตั้งใจ
  • อย่าใช้ robots.txt เพื่อบล็อกเนื้อหาส่วนตัวของคุณ หากคุณต้องการรักษาความปลอดภัยเพจของคุณ การป้องกันด้วยรหัสผ่านจะดีกว่า นอกจากนี้ ไฟล์ robots.txt ยังสามารถเข้าถึงได้แบบสาธารณะ และคุณอาจเปิดเผยตำแหน่งของเนื้อหาส่วนตัวของคุณต่อบ็อตที่เป็นอันตรายได้
  • การไม่อนุญาตให้โปรแกรมรวบรวมข้อมูลเข้าถึงเว็บไซต์ของคุณจะไม่ลบออกจากหน้าผลการค้นหา หากมีลิงก์จำนวนมากที่มี anchor text อธิบายที่ชี้ไปยังหน้าเว็บของคุณ ลิงก์นั้นก็ยังสามารถจัดทำดัชนีได้ หากคุณต้องการป้องกัน คุณควรพิจารณาใช้ Meta Robots Tag หรือ X-Robots-Tag header แทน