สุดยอดคู่มือสำหรับ Robots.txt สำหรับ SEO
เผยแพร่แล้ว: 2021-12-29Robots.txt เป็นไฟล์ที่คุณสามารถสร้างเพื่อควบคุมการรวบรวมข้อมูลเว็บไซต์ของคุณ
เป็นการใช้งานจริงของ Robots Exclusion Protocol ซึ่งสร้างขึ้นเพื่อ ป้องกันไม่ให้โปรแกรมรวบรวมข้อมูลเว็บจากเว็บไซต์ที่มีคำขอมากเกินไป
เจ้าของบริการอาจไม่สะดวกหากโปรแกรมรวบรวมข้อมูลเข้าชมพื้นที่ URI ทั้งหมดของตน เอกสารนี้ระบุกฎที่กำหนดไว้แต่เดิมโดย "Robots Exclusion Protocol" ซึ่งโปรแกรมรวบรวมข้อมูลต้องปฏิบัติตามเมื่อเข้าถึง URIที่มา: Robots Exclusion Protocol
แม้ว่าเว็บไซต์ของคุณไม่จำเป็นต้องใช้ robots.txt แต่การมีเครื่องมือหนึ่ง อาจส่งผลดีต่อธุรกิจของคุณด้วยการเพิ่มประสิทธิภาพวิธีที่บอทของเครื่องมือค้นหารวบรวมข้อมูลเว็บไซต์ของคุณ
จากรายงานของ Web Almanac ประจำปี 2021 พบว่า ประมาณ 16,5% ของเว็บไซต์ไม่มีไฟล์ robots.txt เลย นอกจากนี้ ไม่ใช่ทุกคนที่นำไปใช้อย่างถูกต้อง
เว็บไซต์อาจมีไฟล์ robots.txt ที่กำหนดค่าไม่ถูกต้อง ตัวอย่างเช่น เว็บไซต์ยอดนิยมบางแห่ง (อาจเข้าใจผิด) บล็อกเครื่องมือค้นหา Google อาจจัดทำดัชนีเว็บไซต์เหล่านี้ไว้เป็นระยะเวลาหนึ่ง แต่ในที่สุดการมองเห็นในผลการค้นหาจะลดลงที่มา: Web Almanac
การใช้ robots.txt อย่างไม่เหมาะสมอาจเป็นข้อผิดพลาดเล็กน้อยหรือมีค่าใช้จ่ายสูง ทั้งนี้ขึ้นอยู่กับขนาดของเว็บไซต์ของคุณ
บทความนี้จะแสดง วิธีสร้างไฟล์ robots.txt และหลีกเลี่ยงข้อผิดพลาดที่อาจเกิดขึ้น
robots.txt คืออะไร
Robots.txt เป็นไฟล์ข้อความธรรมดาที่คุณสามารถวางบนเซิร์ฟเวอร์ของคุณเพื่อควบคุมวิธีที่บอทเข้าถึงหน้าเว็บของคุณ ประกอบด้วยกฎสำหรับโปรแกรมรวบรวมข้อมูล ซึ่งกำหนดว่าหน้าใดควรหรือไม่ควรรวบรวมข้อมูล
ไฟล์ควรอยู่ที่ไดเร็กทอรีรากของเว็บไซต์ของคุณ ตัวอย่างเช่น หากเว็บไซต์ของคุณชื่อ domain.com ไฟล์ robots.txt ควรอยู่ที่ domain.com/robots.txt
แต่ไฟล์ทำงานอย่างไร บอทค้นพบได้อย่างไร
โปรแกรมรวบรวมข้อมูลคือโปรแกรมที่รวบรวมข้อมูลเว็บ มีการใช้งานที่หลากหลาย แต่เสิร์ชเอ็นจิ้นใช้เพื่อค้นหาเนื้อหาเว็บเพื่อสร้างดัชนี กระบวนการนี้สามารถแบ่งออกเป็นสองสามขั้นตอน:
- โปรแกรมรวบรวมข้อมูลมีคิวของ URL ที่มีทั้งเว็บไซต์ใหม่และเว็บไซต์ที่รู้จักก่อนหน้านี้ซึ่งพวกเขาต้องการรวบรวมข้อมูล
- ก่อนที่จะรวบรวมข้อมูลเว็บไซต์ โปรแกรมรวบรวมข้อมูลจะค้นหาไฟล์ robots.txt ในไดเรกทอรีรากของเว็บไซต์ก่อน
- หากไม่มีไฟล์ robots.txt โปรแกรมรวบรวมข้อมูลจะดำเนินการรวบรวมข้อมูลเว็บไซต์อย่างอิสระ อย่างไรก็ตาม หากมีไฟล์ robots.txt ที่ถูกต้อง โปรแกรมรวบรวมข้อมูลจะค้นหาคำสั่งภายในไฟล์ และดำเนินการรวบรวมข้อมูลเว็บไซต์ตามลำดับ
หากเสิร์ชเอ็นจิ้นไม่สามารถรวบรวมข้อมูลหน้า หน้านั้นก็ไม่สามารถจัดทำดัชนี ดังนั้นจึงไม่ปรากฏในหน้าผลการค้นหา
อย่างไรก็ตาม มีสองข้อควรระวัง:
1. หน้าที่ถูกบล็อกจากการรวบรวมข้อมูลอาจยังคงได้รับการจัดทำดัชนี
การไม่อนุญาตการรวบรวมข้อมูลในไฟล์ robots.txt ไม่ได้รับประกันว่าเครื่องมือค้นหาจะไม่จัดทำดัชนีหน้าเว็บ พวกเขาอาจยังคงทำหากพบข้อมูลเกี่ยวกับเนื้อหาในแหล่งอื่นและตัดสินใจว่าเป็นเนื้อหาที่สำคัญ ตัวอย่างเช่น พวกเขาสามารถค้นหาลิงก์ที่นำไปสู่หน้าจากเว็บไซต์อื่น ใช้ anchor text และแสดงบนหน้าผลการค้นหา
2. คุณไม่สามารถบังคับโรบ็อตให้ปฏิบัติตามกฎใน robots.txt
Robots.txt เป็นเพียงแนวทางเท่านั้น ไม่ใช่กฎบังคับ คุณไม่สามารถบังคับบอทให้เชื่อฟังได้ โปรแกรมรวบรวมข้อมูลส่วนใหญ่ โดยเฉพาะอย่างยิ่งที่ใช้โดยเครื่องมือค้นหา จะไม่รวบรวมข้อมูลหน้าใดๆ ที่ถูกบล็อกโดย robots.txt อย่างไรก็ตาม เสิร์ชเอ็นจิ้นไม่ใช่เพียงคนเดียวที่ใช้โปรแกรมรวบรวมข้อมูล บอทที่เป็นอันตรายอาจเพิกเฉยต่อคำแนะนำและเข้าถึงหน้าต่อไป นั่นเป็นเหตุผลที่ คุณไม่ควรใช้ robots.txt เป็นวิธีปกป้องข้อมูลที่ละเอียดอ่อนบนเว็บไซต์ของคุณจากการถูกรวบรวมข้อมูล หากคุณต้องการให้แน่ใจว่าบอทจะไม่รวบรวมข้อมูลเนื้อหาของคุณ การป้องกันด้วยรหัสผ่านจะดีกว่า
ทำไมคุณถึงต้องการไฟล์ robots.txt
Robots.txt ไม่ใช่ส่วนบังคับของเว็บไซต์ของคุณ แต่ส่วนที่ได้รับการปรับให้เหมาะสมที่สุดจะเป็นประโยชน์ต่อเว็บไซต์ของคุณในหลาย ๆ ด้าน
สิ่งสำคัญที่สุดคือสามารถช่วย เพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูลของคุณได้ บอทของเครื่องมือค้นหามีทรัพยากรจำกัด โดยจำกัดจำนวน URL ที่สามารถรวบรวมข้อมูลในเว็บไซต์ที่กำหนด ดังนั้น หากคุณเปลืองงบประมาณการรวบรวมข้อมูลในหน้าที่มีความสำคัญน้อยกว่า อาจมีไม่เพียงพอสำหรับหน้าที่มีค่ามากกว่า หากคุณมีเว็บไซต์ขนาดเล็ก อาจดูเหมือนเป็นปัญหาผิวเผิน แต่ใครก็ตามที่ดูแลเว็บไซต์ขนาดใหญ่จะรู้ว่าการใช้ทรัพยากรของบอทเครื่องมือค้นหาอย่างมีประสิทธิภาพมีความสำคัญเพียงใด
ด้วยไฟล์ robots.txt คุณสามารถ ป้องกันไม่ให้บางหน้า เช่น หน้าคุณภาพต่ำถูกรวบรวม ข้อมูล เป็นสิ่งสำคัญเพราะถ้าคุณมีหน้าเว็บคุณภาพต่ำที่จัดทำดัชนีได้หลายหน้า หน้านั้นอาจส่งผลกระทบต่อทั้งเว็บไซต์ และไม่สนับสนุนให้บอทของเครื่องมือค้นหารวบรวมข้อมูลแม้แต่หน้าคุณภาพสูง
นอกจากนี้ robots.txt ยังให้คุณ ระบุตำแหน่งของแผนผังเว็บไซต์ XML ได้อีกด้วย แผนผังเว็บไซต์คือไฟล์ข้อความที่แสดงรายการ URL ที่คุณต้องการให้เครื่องมือค้นหาจัดทำดัชนี การกำหนดลิงก์ในไฟล์ robots.txt ทำให้บอทของเครื่องมือค้นหาค้นหาได้ง่ายขึ้น
วิธีแก้ไขไฟล์ robots.txt
วิธีแก้ไขไฟล์ robots.txt นั้นขึ้นอยู่กับระบบที่คุณใช้เป็นอย่างมาก
หากคุณกำลังใช้ CMS หรือแพลตฟอร์มอีคอมเมิร์ซ คุณอาจมีสิทธิ์เข้าถึงเครื่องมือหรือปลั๊กอินเฉพาะที่สามารถช่วยให้คุณเข้าถึงและแก้ไขไฟล์ได้อย่างง่ายดาย ตัวอย่างเช่น Wix และ Shopify อนุญาตให้คุณแก้ไข robots.txt ได้โดยตรง สำหรับ WordPress คุณสามารถใช้ปลั๊กอินเช่น Yoast SEO
หากคุณไม่ได้ใช้ CMS หรือแพลตฟอร์มอีคอมเมิร์ซ คุณอาจต้องดาวน์โหลดไฟล์ก่อน แก้ไขแล้วอัปโหลดกลับบนไซต์ของคุณ
คุณสามารถ ดาวน์โหลดไฟล์ได้ หลายวิธี:
- แสดงไฟล์ในเบราว์เซอร์ของคุณโดยเพิ่ม “/robots.txt” ลงในไดเร็กทอรีรากของคุณ จากนั้นคัดลอกเนื้อหา
- ใช้เครื่องมือที่มีให้โดยบริการโฮสติ้งของคุณ ตัวอย่างเช่น อาจเป็นแผงเฉพาะสำหรับจัดการไฟล์หรือเข้าถึงผ่านโปรโตคอล FTP
- ใช้เครื่องมือคอนโซลเช่น cURL เพื่อดาวน์โหลดไฟล์โดยพิมพ์คำสั่งนี้:
curl https://example.com/robots.txt -o robots.txt- ใช้ โปรแกรมทดสอบ robots.txt ของ Google หรือ Bing เพื่อดาวน์โหลดไฟล์ของคุณ
เมื่อคุณดาวน์โหลด robots.txt แล้ว คุณก็สามารถ แก้ไข ได้ในโปรแกรมแก้ไขข้อความที่คุณเลือก เช่น Notepad (Windows) หรือ TextEdit (Mac) ตรวจสอบให้แน่ใจว่าได้เข้ารหัสไฟล์ในมาตรฐาน UTF-8 และจำไว้ว่าต้องตั้งชื่อไฟล์ว่า “robots.txt”
หลังจากแก้ไข robots.txt แล้ว คุณสามารถ อัปโหลดไฟล์ได้ ในลักษณะเดียวกับการดาวน์โหลด คุณสามารถใช้เครื่องมือเฉพาะที่โฮสต์ให้มา ใช้เครื่องมือในตัว CMS หรือส่งไฟล์ไปยังเซิร์ฟเวอร์โดยตรงโดยใช้โปรโตคอล FTP
เมื่อไฟล์ของคุณเผยแพร่สู่สาธารณะแล้ว เครื่องมือค้นหาจะค้นหาได้โดยอัตโนมัติ หากคุณต้องการให้เครื่องมือค้นหาเห็นการเปลี่ยนแปลงทันทีด้วยเหตุผลบางประการ คุณสามารถใช้ตัวเลือกส่งในตัว ทดสอบ robots.txt ของ Google และ Bing
ในระหว่างกระบวนการรวบรวมข้อมูลอัตโนมัติ โปรแกรมรวบรวมข้อมูลของ Google จะสังเกตเห็นการเปลี่ยนแปลงที่คุณทำกับไฟล์ robots.txt ของคุณและอัปเดตเวอร์ชันที่แคชไว้ทุก 24 ชั่วโมง หากคุณต้องการอัปเดตแคชเร็วขึ้น ให้ใช้ ฟังก์ชัน ส่ง ของ ตัว ทดสอบ robots.txtที่มา: Google
ไวยากรณ์ Robots.txt
Robots.txt ประกอบด้วยบล็อกข้อความ แต่ละบล็อกเริ่มต้นด้วยสตริง User-agent และกลุ่มคำสั่ง (กฎ) สำหรับบอทเฉพาะ
ต่อไปนี้คือตัวอย่างไฟล์ robots.txt
ตัวแทนผู้ใช้: * ไม่อนุญาต: /admin/ ไม่อนุญาต: /ผู้ใช้/ #คำแนะนำเฉพาะสำหรับ Googlebot User-agent: Googlebot อนุญาต: /wp-admin/ ไม่อนุญาต: /ผู้ใช้/ #คำแนะนำเฉพาะสำหรับ Bingbot ตัวแทนผู้ใช้: Bingbot ไม่อนุญาต: /admin/ ไม่อนุญาต: /ผู้ใช้/ ไม่อนุญาต:/ไม่ใช่สำหรับ Bingbot/ รวบรวมข้อมูลล่าช้า: 10 แผนผังเว็บไซต์: https://www.example.com/sitemap.xml
ตัวแทนผู้ใช้
มีโปรแกรมรวบรวมข้อมูลหลายร้อยรายการที่อาจต้องการเข้าถึงเว็บไซต์ของคุณ นั่นเป็นเหตุผลที่คุณอาจต้องการกำหนดขอบเขตที่แตกต่างกันสำหรับพวกเขาตามความตั้งใจของพวกเขา นี่คือเวลาที่ User-agent อาจมีประโยชน์

User-agent เป็นสตริงข้อความที่ระบุบอทเฉพาะ ตัวอย่างเช่น Google ใช้ Googlebot, Bing ใช้ Bingbot, DuckDuckGo ใช้ DuckDuckBot และ Yahoo ใช้ Slurp เครื่องมือค้นหาสามารถมี User-agent ได้มากกว่าหนึ่งตัว คุณสามารถค้นหา รายการ User-agent ทั้งหมดที่ Google และ Bing ใช้ได้ที่นี่
User-agent เป็นบรรทัดที่จำเป็นในทุกกลุ่มของคำสั่ง คุณสามารถคิดว่ามันเป็นการเรียกบอทตามชื่อของพวกเขาและให้คำแนะนำเฉพาะแก่พวกเขาแต่ละคน คำสั่งทั้งหมดที่ตามหลัง User-agent จะมุ่งเป้าไปที่บอทที่กำหนดไว้จนกว่าจะมีการระบุ User-agent ใหม่
คุณยังสามารถใช้ไวด์การ์ดและให้คำแนะนำแก่บอททั้งหมดในคราวเดียว ฉันจะครอบคลุมไวด์การ์ดในภายหลัง
คำสั่ง
คำสั่งคือกฎที่คุณกำหนดสำหรับบอทของเครื่องมือค้นหา ข้อความแต่ละกลุ่มสามารถมีคำสั่งได้ตั้งแต่หนึ่งคำสั่งขึ้นไป แต่ละคำสั่งต้องเริ่มต้นในบรรทัดที่แยกจากกัน
คำสั่งรวมถึง:
- ไม่อนุญาต
- อนุญาต,
- แผนผังเว็บไซต์
- รวบรวมข้อมูลล่าช้า
หมายเหตุ: นอกจากนี้ยังมีคำสั่ง noindex ที่ไม่เป็นทางการซึ่งควรระบุว่าไม่ควรจัดทำดัชนีหน้า อย่างไรก็ตาม เสิร์ชเอ็นจิ้นส่วนใหญ่ รวมถึง Google และ Bing ไม่รองรับ ถ้าคุณไม่ต้องการให้บางหน้าได้รับการจัดทำดัชนี ให้ใช้ noindex Meta Robots Tag หรือ X-Robots-Tag header (ฉันจะอธิบายในบทความต่อไป)
ไม่อนุญาต
User-agent: Googlebot ไม่อนุญาต: /ผู้ใช้/
คำสั่งนี้ระบุว่าหน้าใดไม่ควรรวบรวมข้อมูล โดยค่าเริ่มต้น บอทของเครื่องมือค้นหาสามารถรวบรวมข้อมูลทุกหน้าที่ไม่ถูกบล็อกโดยคำสั่ง disallow
ในการบล็อกการเข้าถึงหน้าใดหน้าหนึ่ง คุณต้อง กำหนดเส้นทางที่เกี่ยวข้องกับไดเรกทอรีราก
สมมติว่าคุณมีไซต์สองไซต์นี้ในเว็บไซต์ของคุณ:
- เว็บไซต์.com/products/shoes/item1.html
- เว็บไซต์.com/products/shirts/item2.html
มาดูตัวอย่างการบล็อกเส้นทางเหล่านี้กัน:
| เส้นทาง | ถูกบล็อค |
| ไม่อนุญาต: /item1.html | ไม่อนุญาตเฉพาะ /products/shoes/item1.html เท่านั้น |
| ไม่อนุญาต: /products/ | ไม่อนุญาตทั้ง /products/shoes/item1.html และ /products/shirts/item2.html |
คุณสามารถไม่อนุญาตให้รวบรวมข้อมูลของทั้งไซต์ได้โดยการเพิ่มสัญลักษณ์ “/” ด้วยวิธีต่อไปนี้:
User-agent: Googlebot ไม่อนุญาต: /
อนุญาต
User-agent: Googlebot ไม่อนุญาต: /ผู้ใช้/ อนุญาต: /users/very-important-user.html
คุณสามารถใช้คำสั่ง allow เพื่อ อนุญาตการรวบรวมข้อมูลหน้าในไดเร็กทอรีที่ไม่อนุญาต
ในตัวอย่างข้างต้น ทุกหน้าภายในไดเร็กทอรี /user/ ไม่ได้รับอนุญาต ยกเว้นหน้าหนึ่งที่เรียกว่า /very-important-user.html
แผนผังเว็บไซต์
แผนผังเว็บไซต์: https://website.com/sitemap.xmlคำสั่งแผนผังเว็บไซต์จะระบุตำแหน่งของแผนผังเว็บไซต์ คุณสามารถเพิ่มได้ที่จุดเริ่มต้นหรือจุดสิ้นสุดของไฟล์และกำหนดแผนผังเว็บไซต์มากกว่าหนึ่งรายการ
ไม่เหมือนกับเส้นทางที่กำหนดไว้ในคำสั่งอื่นๆ ให้ เพิ่ม URL แบบเต็มของแผนผังไซต์ของคุณเสมอ รวมถึงโปรโตคอล HTTP/HTTPS หรือเวอร์ชัน www/non-www
ไม่จำเป็นต้องใช้คำสั่งแผนผังเว็บไซต์ แต่ขอแนะนำเป็นอย่างยิ่ง แม้ว่าคุณจะส่งแผนผังเว็บไซต์ใน Google Search Console หรือ Bing Webmaster Tools คุณควรเพิ่มลงในไฟล์ robots.txt เพื่อช่วยให้บอทของเครื่องมือค้นหาทั้งหมดค้นหาได้เร็วขึ้น
รวบรวมข้อมูลล่าช้า
รวบรวมข้อมูลล่าช้า: 10บอทของเครื่องมือค้นหาสามารถรวบรวมข้อมูลหน้าเว็บของคุณได้จำนวนมากในระยะเวลาอันสั้น การรวบรวมข้อมูลแต่ละครั้งใช้ทรัพยากรส่วนหนึ่งของเซิร์ฟเวอร์ของคุณ
หากคุณมีเว็บไซต์ขนาดใหญ่ที่มีหลายหน้า หรือการเปิดแต่ละหน้าต้องใช้ทรัพยากรเซิร์ฟเวอร์จำนวนมาก เซิร์ฟเวอร์ของคุณอาจไม่สามารถจัดการคำขอทั้งหมดได้ ด้วยเหตุนี้ จึงมีการใช้งานมากเกินไป และทั้งผู้ใช้และเครื่องมือค้นหาอาจไม่สามารถเข้าถึงไซต์ของคุณได้ชั่วคราว นั่นคือสิ่งที่คำสั่งการชะลอการรวบรวมข้อมูลอาจมีประโยชน์และทำให้กระบวนการรวบรวมข้อมูลช้าลง
ค่าของคำสั่งการชะลอการรวบรวมข้อมูลถูกกำหนดเป็นวินาที คุณสามารถตั้งค่าได้ระหว่าง 1-30 วินาที
สิ่งสำคัญคือต้องสังเกตว่าไม่ใช่ทุกเครื่องมือค้นหาที่ปฏิบัติตามคำสั่งนี้ ตัวอย่างเช่น Google ไม่สนับสนุนการล่าช้าในการรวบรวมข้อมูลเลย
นอกจากนี้ การตีความอาจแตกต่างกันไปตามเครื่องมือค้นหา ตัวอย่างเช่น สำหรับ Bing และ Yahoo Crawl-delay แสดงถึงความยาวของช่องว่างระหว่างหน้าต่างที่บอทสามารถเข้าถึงหน้าได้เพียงครั้งเดียว
สำหรับ Yandex Crawl-delay จะระบุระยะเวลาที่บอทต้องรอก่อนที่จะขอหน้าอื่น
ความคิดเห็นใน robots.txt
#บล็อกการเข้าถึงส่วนบล็อก User-agent: Googlebot ไม่อนุญาต: /บล็อก/ ตัวแทนผู้ใช้: Bingbot ไม่อนุญาต: /users/ #blocks การเข้าถึงส่วนผู้ใช้
คุณสามารถเพิ่มความคิดเห็นในไฟล์ robots.txt ได้โดยเพิ่มเครื่องหมายแฮช # ที่ต้นบรรทัดหรือหลังคำสั่ง เครื่องมือค้นหาละเว้นทุกสิ่งที่ตามหลัง # ในบรรทัดเดียวกัน
ความคิดเห็นมีไว้สำหรับมนุษย์เพื่ออธิบายว่าส่วนใดส่วนหนึ่งหมายถึงอะไร เป็นความคิดที่ดีเสมอที่จะเพิ่มพวกเขาเพราะจะช่วยให้คุณเข้าใจได้เร็วขึ้นว่าเกิดอะไรขึ้นในครั้งต่อไปที่คุณเปิดไฟล์
คุณสามารถใช้ความคิดเห็นเพื่อเพิ่มไข่อีสเตอร์ลงในไฟล์ robots.txt หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเรื่องนี้ คุณสามารถดู บทความเกี่ยวกับ การทำให้คำสั่งโรบ็อตของคุณเป็นเรื่องสนุกสำหรับมนุษย์ หรือดูตัวอย่างใน robots.txt ของเรา
ไวด์การ์ด
ไวด์การ์ดเป็นอักขระพิเศษที่สามารถใช้เป็นตัวยึดตำแหน่งสำหรับสัญลักษณ์อื่นๆ ในข้อความ และทำให้ขั้นตอนการสร้างไฟล์ robots.txt ง่ายขึ้น พวกเขารวมถึง:
- เครื่องหมายดอกจัน * และ
- เครื่องหมายดอลลาร์ $
เครื่องหมายดอกจันสามารถแทนที่สตริงใดก็ได้
ตัวแทนผู้ใช้: *ในตัวอย่างข้างต้น เครื่องหมายดอกจันในบรรทัด User-agent ระบุบอทของเครื่องมือค้นหาทั้งหมด ดังนั้นทุกคำสั่งที่ตามมาจะมุ่งเป้าไปที่โปรแกรมรวบรวมข้อมูลทั้งหมด
ไม่อนุญาต: /*?คุณยังสามารถใช้เพื่อกำหนดเส้นทาง ตัวอย่างข้างต้นหมายความว่าทุก URL ที่ลงท้ายด้วย “?” ไม่ได้รับอนุญาต
เครื่องหมายดอลลาร์ระบุองค์ประกอบเฉพาะที่ตรงกับส่วนท้ายของ URL
ไม่อนุญาต: /*.jpeg$ตัวอย่างข้างต้นระบุว่าทุก URL ที่ลงท้ายด้วย “.jpeg” ไม่ควรได้รับอนุญาต
คุณสามารถใช้ไวด์การ์ดได้ในทุกคำสั่ง ยกเว้นแผนผังเว็บไซต์
การทดสอบไฟล์ robots.txt
คุณสามารถทดสอบด้วยเครื่องมือทดสอบ robots.txt ใน Google Search Console และ Bing Webmaster Tools เพียงพิมพ์ URL ที่คุณต้องการตรวจสอบ จากนั้นเครื่องมือจะแสดงให้คุณเห็นว่าอนุญาตหรือไม่อนุญาต
คุณยังสามารถแก้ไขไฟล์ได้โดยตรงในตัวทดสอบ robots.txt และทดสอบการเปลี่ยนแปลงอีกครั้ง โปรดทราบว่าการเปลี่ยนแปลงจะไม่ถูกบันทึกบนเว็บไซต์ของคุณ คุณต้องคัดลอกไฟล์และอัปโหลดไปยังไซต์ของคุณเอง
หากคุณเชี่ยวชาญด้านเทคโนโลยีมากขึ้น คุณยังสามารถใช้ ไลบรารี robots.txt โอเพ่นซอร์สของ Google เพื่อทดสอบไฟล์ robots.txt ในเครื่องคอมพิวเตอร์ของคุณได้
Robots.txt กับ Meta Robots Tag กับ X-Robots-Tag
Robots.txt ไม่ใช่วิธีเดียวในการสื่อสารกับโปรแกรมรวบรวมข้อมูล คุณยังสามารถใช้ Meta Robots Tag และ X-Robots-Tag
ความแตกต่างที่สำคัญที่สุดคือความจริงที่ว่า robots.txt ควบคุมการรวบรวมข้อมูลของเว็บไซต์ ในขณะที่ Meta Robots Tag และ X-Robots-Tag ช่วยให้คุณควบคุมการจัดทำดัชนีได้
เหนือสิ่งอื่นใด วิธีการเหล่านี้ก็แตกต่างกันไปตามวิธีการนำไปใช้
| การดำเนินการ | |
| Robots.txt | เพิ่มไฟล์ข้อความอย่างง่ายที่ไดเร็กทอรีรากของเว็บไซต์ของคุณ |
| แท็กโรบ็อต Meta | เพิ่มแท็ก HTML ในส่วน <head> ของโค้ด |
| X-Robots-แท็ก | ส่วนของส่วนหัวการตอบสนอง HTTP ที่เพิ่มในฝั่งเซิร์ฟเวอร์ |
เมื่อบ็อตเครื่องมือค้นหาพบหน้า อันดับแรกจะดูในไฟล์ robots.txt หากไม่อนุญาตให้รวบรวมข้อมูล ก็สามารถเข้าถึงเว็บไซต์ได้ จากนั้นจึงค้นหา Meta Robots Tags หรือส่วนหัว X-Robots-Tag ที่เป็นไปได้ สิ่งสำคัญที่ต้องจำไว้ด้วยเหตุผลสองประการ:
- การรวมวิธีการต่างๆ – บอทของเครื่องมือค้นหาจะต้องได้รับอนุญาตให้รวบรวมข้อมูลหน้าเพื่อดู Meta Robots Tag และ X-Robots-Tag หากบ็อตเข้าถึงหน้าไม่ได้ บอทจะทำงานไม่ถูกต้อง
- การเพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูล – ในสามวิธีนี้มีเพียง robots.txt เท่านั้นที่สามารถช่วยคุณประหยัดงบประมาณการรวบรวมข้อมูลได้
ปฏิบัติที่ดีที่สุด
ต่อไปนี้คือแนวทางปฏิบัติและเคล็ดลับที่ดีที่สุดบางส่วนขณะสร้างไฟล์ robots.txt:
- อย่าบล็อกไฟล์ JavaScript หรือ CSS ของคุณโดยใช้ robots.txt บอทอาจแสดงผลเนื้อหาของคุณไม่ถูกต้องหากเข้าถึงทรัพยากรเหล่านี้ไม่ได้
- ตรวจสอบให้แน่ใจว่าได้เพิ่มลิงก์ไปยังแผนผังไซต์ของคุณเพื่อช่วยให้บอทของเครื่องมือค้นหาทั้งหมดค้นหาได้ง่าย
- การตีความไวยากรณ์ของ robots.txt อาจแตกต่างกันไปตามเครื่องมือค้นหา ตรวจสอบอีกครั้งเสมอว่าบอทของเครื่องมือค้นหาจัดการกับคำสั่งเฉพาะอย่างไรหากคุณไม่แน่ใจ
- ระวังเมื่อใช้ไวด์การ์ด หากคุณใช้งานในทางที่ผิด คุณอาจบล็อกการเข้าถึงทั้งส่วนของไซต์ของคุณโดยไม่ได้ตั้งใจ
- อย่าใช้ robots.txt เพื่อบล็อกเนื้อหาส่วนตัวของคุณ หากคุณต้องการรักษาความปลอดภัยเพจของคุณ การป้องกันด้วยรหัสผ่านจะดีกว่า นอกจากนี้ ไฟล์ robots.txt ยังสามารถเข้าถึงได้แบบสาธารณะ และคุณอาจเปิดเผยตำแหน่งของเนื้อหาส่วนตัวของคุณต่อบ็อตที่เป็นอันตรายได้
- การไม่อนุญาตให้โปรแกรมรวบรวมข้อมูลเข้าถึงเว็บไซต์ของคุณจะไม่ลบออกจากหน้าผลการค้นหา หากมีลิงก์จำนวนมากที่มี anchor text อธิบายที่ชี้ไปยังหน้าเว็บของคุณ ลิงก์นั้นก็ยังสามารถจัดทำดัชนีได้ หากคุณต้องการป้องกัน คุณควรพิจารณาใช้ Meta Robots Tag หรือ X-Robots-Tag header แทน
