วิธีสร้างไฟล์ Robots.txt ที่ดีสำหรับเว็บไซต์ของคุณ
เผยแพร่แล้ว: 2018-07-09Robots.txt – เป็นหัวข้อทางเทคนิคมากกว่า ไฟล์ Robots.txt อาจเป็นคำใหม่สำหรับคนส่วนใหญ่ อันที่จริง มันเป็นข้อความเล็กๆ ที่กำหนดอนาคตเว็บไซต์ของคุณ
เป็นไปได้อย่างไร?
มันเป็นไปได้. ข้อความขนาดเล็กนี้สามารถควบคุมการเข้าชมไซต์ของคุณได้ หากคุณป้อนผิด หน้าของคุณอาจไม่อยู่ในผลการค้นหา ดังนั้น สิ่งสำคัญคือต้องรู้วิธีใช้อย่างถูกต้อง
เป็นหนึ่งในวิธีการ SEO ที่ง่ายและง่ายที่สุดที่คุณสามารถนำไปใช้กับเว็บไซต์ของคุณได้ ไม่จำเป็นต้องมีความรู้ด้านเทคนิคเพื่อควบคุมพลังของ robots.txt หากคุณสามารถหาซอร์สโค้ดได้ก็เป็นเรื่องง่าย
![]()
นอกจากนี้ การวาง robots.txt ไว้ที่ใดก็ได้บนเว็บไซต์ก็ไม่ช่วยอะไร ในการนั้น คุณต้องค้นหาซอร์สโค้ดก่อนและเก็บไว้ที่นั่น จากนั้นมีเพียงโปรแกรมรวบรวมข้อมูลเว็บเท่านั้นที่สามารถระบุคำสั่งของคุณและดำเนินการตามนั้น
จากบทความนี้ คุณจะได้คำตอบสำหรับคำถามต่อไปนี้:
- ไฟล์ robots.txt คืออะไร
- การใช้ไฟล์ robot.txt
- มันทำงานอย่างไร?
- จะสร้างมันขึ้นมาได้อย่างไร?
- ความสำคัญของไฟล์ robots.txt?
- สิ่งที่จะรวมไว้ในไฟล์นี้?
ก่อนอื่น ให้ฉันอธิบายคำว่า
ไฟล์ Robots.txt คืออะไร
Robots.txt เป็นไฟล์ข้อความที่อยู่ในไดเรกทอรีรากของเว็บไซต์ มันควบคุมโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาและสไปเดอร์ในการเยี่ยมชมเว็บไซต์หนึ่งๆ นั่นหมายความว่ามันบอกเครื่องมือค้นหาเกี่ยวกับหน้าเว็บไซต์ที่ต้องการเข้าชมหรือไม่เข้าชม
เจ้าของเว็บไซต์ทุกคนพยายามที่จะสังเกตเห็นในปัจจุบัน คุณสามารถทำได้โดยใช้ข้อความขนาดเล็กนี้ ช่วยในการรวมหรือแยกหน้าใดหน้าหนึ่งออกจากผลการค้นหา คุณจะได้รับแนวคิดเกี่ยวกับเรื่องนี้หลังจากอ่านบทความนี้
เมื่อโปรแกรมรวบรวมข้อมูลเข้าถึงไซต์ สิ่งแรกที่ต้องการคือไฟล์ 'robots.txt' หากมีไฟล์ดังกล่าว ให้ไปที่คำแนะนำในการจัดทำดัชนีสำหรับขั้นตอนเพิ่มเติม
หากคุณยังไม่ได้เพิ่มไฟล์ robots.txt เสิร์ชเอ็นจิ้นสามารถรวบรวมข้อมูลในไซต์ของคุณได้ทุกที่และจัดทำดัชนีทุกอย่างที่พบในไซต์ของคุณ แต่ควรระบุแผนผังเว็บไซต์เป็นแนวทางปฏิบัติที่ดี ทำให้เครื่องมือค้นหาสามารถค้นหาเนื้อหาใหม่ได้ง่ายโดยไม่ชักช้า
การใช้ robots.txt:
- คุณสามารถหลีกเลี่ยงการทำซ้ำหน้าโดยใช้ข้อความนี้
- หากคุณไม่ต้องการให้เครื่องมือค้นหาจัดทำดัชนีหน้าผลการค้นหาภายในของคุณ คุณสามารถใช้ข้อความนี้
- ใช้หากคุณไม่ต้องการให้เครื่องมือค้นหาจัดทำดัชนีบางพื้นที่ของหน้าเว็บของคุณหรือทั้งเว็บไซต์
- คุณสามารถหลีกเลี่ยงการสร้างดัชนีรูปภาพหรือไฟล์บางไฟล์ได้
- คุณสามารถนำทางเครื่องมือค้นหาไปยังแผนผังไซต์ของคุณ
- คุณสามารถใช้ความล่าช้าในการรวบรวมข้อมูลเพื่อป้องกันไม่ให้เซิร์ฟเวอร์ทำงานหนักเกินไปเมื่อโปรแกรมรวบรวมข้อมูลโหลดเนื้อหาหลายรายการพร้อมกัน
ใช้ robots.txt เฉพาะเมื่อคุณต้องการควบคุมการเข้าถึงหน้าใดหน้าหนึ่งโดยเฉพาะ ถ้าไม่มีของแบบนั้นก็ไม่ต้องใช้ครับ
ไฟล์ Robots.txt ทำงานอย่างไร:
เครื่องมือค้นหามีสองหน้าที่หลัก
- การรวบรวมข้อมูลเว็บไซต์เพื่อค้นหาเนื้อหา
- จัดทำดัชนีเนื้อหาที่ให้บริการผู้ค้นหาที่ค้นหาข้อมูลเฉพาะ
เครื่องมือค้นหารวบรวมข้อมูลจากเว็บไซต์หนึ่งไปยังอีกไซต์หนึ่ง ดังนั้นมันจึงรวบรวมข้อมูลจากไซต์หลายพันล้านแห่ง กระบวนการรวบรวมข้อมูลเรียกอีกอย่างว่าแมงมุม
หลังจากมาถึงเว็บไซต์และก่อนที่จะรวบรวมข้อมูลจากเว็บไซต์หนึ่งไปยังอีกเว็บไซต์หนึ่ง โปรแกรมรวบรวมข้อมูลการค้นหาจะค้นหาไฟล์ robots.txt หากพบแล้วโปรแกรมรวบรวมข้อมูลจะอ่านก่อนที่จะดำเนินการต่อในไซต์นั้น ไฟล์ robots.txt นี้มีคำแนะนำสำหรับโปรแกรมรวบรวมข้อมูลเว็บ มันบอกว่าจะไปต่อหรือไม่ หากโปรแกรมรวบรวมข้อมูลไม่พบคำแนะนำหรือข้อมูลเกี่ยวกับสิ่งที่ต้องทำ โปรแกรมจะดำเนินการต่อไป
robots.txt จะไปที่ไหน
Robots.txt เป็นสิ่งแรกที่ WebCrawler หรือเครื่องมือค้นหาจะดูเมื่อเข้าชมไซต์ จะดูเฉพาะในไดเร็กทอรีหลักเท่านั้น หากไม่พบที่นั่น โปรแกรมรวบรวมข้อมูลจะดำเนินการทุกอย่างในไซต์ ดังนั้นจึงจำเป็นต้อง วางไฟล์ robot.txt ไว้ในไดเร็กทอรีหลักหรือโดเมนราก
เพื่ออธิบายสิ่งนี้ เรามาดูตัวอย่างของ wordpress.com หากตัวแทนผู้ใช้เยี่ยมชม www.wordpress.com/robots.txt และหากไม่มีไฟล์โรบ็อต จะถือว่าไซต์ไม่มีคำแนะนำใดๆ ดังนั้นจึงเริ่มสร้างดัชนีแต่ละหน้า หากไฟล์โรบ็อตอยู่ที่ www.wordpress.com /index/robots.text หรือ www.wordpress.com/homepage/robots.txt ตัวแทนผู้ใช้จะไม่พบมัน จะถือว่าเป็นเว็บไซต์ที่ไม่มี robot.txt
ขั้นตอนในการสร้างไฟล์ Robots.txt?
ไฟล์ robots.txt มีสองช่อง หนึ่งบรรทัดมีชื่อตัวแทนผู้ใช้หรือหลายบรรทัดที่มีคำสั่ง บรรทัดที่สองระบุว่าโปรแกรมรวบรวมข้อมูลต้องทำสิ่งใดบนเว็บไซต์ มาดูวิธีสร้างไฟล์ robots.txt กันเถอะ
- ขั้นตอนแรกคือการเปิดไฟล์ข้อความใหม่ คุณสามารถใช้ Notepad สำหรับพีซีและโปรแกรมแก้ไขข้อความสำหรับ Mac และบันทึกเป็นไฟล์ที่ล้อมรอบข้อความได้
- อัปโหลดไปยังไดเรกทอรีรากของคุณ เป็นโฟลเดอร์ระดับรูทที่เรียกว่า 'htdocs' หรือ 'www' ดังนั้นสิ่งนี้จึงเกิดขึ้นหลังจากชื่อโดเมนของคุณ
- หากมีโดเมนย่อยให้สร้างสำหรับแต่ละโดเมนย่อย
นี่คือรูปแบบพื้นฐานของ robots.txt
User-agent : [ชื่อผู้ใช้-ตัวแทน]
Disallow : [ชื่อของ สตริง URL ที่ไม่ต้องรวบรวมข้อมูล]
โดยทั่วไปเรียกว่าไฟล์ robots.txt อาจมีผู้ใช้หลายบรรทัดและคำสั่ง อาจเป็นอะไรก็ได้จากการอนุญาต ไม่อนุญาต ความล่าช้าในการรวบรวมข้อมูล ฯลฯ
ข้อกำหนดทางเทคนิคใน robots.txt:
มีคำทั่วไปที่เกี่ยวข้องกับภาษาของ robots.txt พวกเขาเรียกว่าไวยากรณ์ robots.txt มีการใช้คำหลักห้าคำในไฟล์ robots.txt พวกเขาคือ:
ตัวแทนผู้ใช้ :
User-agent คือโปรแกรมรวบรวมข้อมูลเว็บหรือเครื่องมือค้นหาที่คุณให้คำแนะนำ
ไม่อนุญาต:
คำสั่งนี้ให้คำแนะนำแก่โปรแกรมรวบรวมข้อมูลไม่ให้รวบรวมข้อมูล URL ใด URL หนึ่ง แต่ละ URL สามารถใช้บรรทัดที่ไม่อนุญาตได้เพียงบรรทัดเดียวเท่านั้น
อนุญาต:
คำสั่งนี้ใช้สำหรับ Google Bot เท่านั้น โดยการให้คำสั่งนี้ บ็อต Google สามารถเข้าถึงโฟลเดอร์ย่อยหรือเพจนั้นได้ แม้ว่าจะไม่อนุญาตให้เพจระดับบนสุดก็ตาม
รวบรวมข้อมูลล่าช้า:
ซึ่งระบุเวลารอก่อนที่จะโหลดและรวบรวมข้อมูลเนื้อหาของหน้า มันใช้งานไม่ได้กับบ็อตของ Google แต่คุณสามารถตั้งเวลาสำหรับคอนโซลการค้นหาของ Google ได้
แผนผังเว็บไซต์:
ใช้เพื่อเรียกตำแหน่งของแผนผังเว็บไซต์ XML ที่เชื่อมโยงกับ URL รองรับเฉพาะ Google, Yahoo, Bing และ Ask

คำเหล่านี้เป็นคำทั่วไปที่คุณควรรู้ในไวยากรณ์ของ robot.txt ตอนนี้คุณสามารถคาดเดาคำสั่งได้โดยเพียงแค่เห็นไฟล์ robots.txt
สิ่งที่จะรวมไว้ในไฟล์ Robots.txt
Robot.txt เพียงแค่ให้คำแนะนำสำหรับเว็บโรบ็อตเกี่ยวกับการเข้าถึงหรือไม่เข้าถึงอะไรเลย หากคุณไม่ต้องการแสดงหน้าเว็บใดๆ แก่ผู้ใช้ คุณสามารถบอกทิศทางแก่โปรแกรมรวบรวมข้อมูลได้โดยใช้ไฟล์ robots.txt มิฉะนั้น คุณสามารถป้องกันได้โดยใช้รหัสผ่าน ด้วยวิธีนี้ คุณสามารถซ่อนตำแหน่งของผู้ดูแลระบบหรือเพจส่วนตัวได้ ป้องกันการรวบรวมข้อมูลของโรบ็อตไปยังเพจส่วนตัวเหล่านั้น
ตอนนี้เรามาดูวิธีการทำกันด้วยตัวอย่าง
- อนุญาตทุกอย่างและส่งแผนผังเว็บไซต์:
นี่เป็นตัวเลือกที่ดีสำหรับทุกไซต์ ซึ่งช่วยให้เครื่องมือค้นหารวบรวมข้อมูลได้ทุกที่และจัดทำดัชนีข้อมูลทั้งหมด นอกจากนี้ยังช่วยให้แสดงตำแหน่ง XML เพื่อให้โปรแกรมรวบรวมข้อมูลสามารถเข้าถึงหน้าใหม่ได้อย่างง่ายดาย
ตัวแทนผู้ใช้:*
อนุญาต: /
#การอ้างอิงแผนผังเว็บไซต์
แผนผังเว็บไซต์: www.wordpress.com/sitemap.xml
- อนุญาตทุกอย่างยกเว้นไดเรกทอรีย่อยเดียว
บางครั้งจะมีพื้นที่ในหน้าของคุณที่คุณไม่ต้องการแสดงในผลการค้นหา อาจเป็นอะไรก็ได้ เช่น รูปภาพ พื้นที่ชำระเงิน ไฟล์ ส่วนการตรวจสอบ ฯลฯ คุณสามารถไม่อนุญาตได้
ตัวแทนผู้ใช้: *
อนุญาต: /
# ไดเรกทอรีย่อยที่ไม่ได้รับอนุญาต
ไม่อนุญาต: /checkout/
ไม่อนุญาต: /images/
ไม่อนุญาต:/รายงานการตรวจสอบ/
- อนุญาตทุกอย่างยกเว้นบางไฟล์:-
บางครั้งคุณอาจต้องการแสดงสื่อหรือรูปภาพบนเว็บไซต์ของคุณหรือแสดงเอกสาร แต่คุณไม่ต้องการให้ปรากฏในผลการค้นหา คุณสามารถซ่อนไฟล์ภาพเคลื่อนไหว, ไฟล์ gif, pdf หรือ PHP ได้ตามที่แสดงด้านล่าง
ตัวแทนผู้ใช้:*
อนุญาต: /
#ไม่อนุญาตประเภทไฟล์
ไม่อนุญาต: /*.gif$
ไม่อนุญาต: /*.pdf$
ไม่อนุญาต: /*.php$
- อนุญาตทุกอย่างนอกเหนือจากบางหน้าเว็บ:-
บางครั้ง คุณอาจต้องการซ่อนบางหน้าที่ไม่เหมาะที่จะอ่าน อาจเป็นอะไรก็ได้จากข้อกำหนดและเงื่อนไขของคุณ หรือหัวข้อที่ละเอียดอ่อนที่คุณไม่ต้องการให้ผู้อื่นดู คุณสามารถซ่อนได้ดังนี้
ตัวแทนผู้ใช้: *
อนุญาต: /
#ไม่อนุญาติให้หน้าเว็บ
ไม่อนุญาต: /terms.html
ไม่อนุญาต:/ secret-list-of contacts.php
- อนุญาตทุกอย่างยกเว้นรูปแบบ URL บางอย่าง
บางครั้ง คุณอาจต้องการไม่อนุญาตรูปแบบ URL บางรูปแบบ อาจเป็นหน้าทดสอบ หน้าค้นหาภายใน ฯลฯ
ตัวแทนผู้ใช้: *
อนุญาต: /
#ไม่อนุญาตรูปแบบ URL
ไม่อนุญาต: /*search=
ไม่อนุญาต: /*test.php$
ในเงื่อนไขข้างต้นนี้ คุณพบสัญลักษณ์และอักขระมากมาย ฉันกำลังอธิบายความหมายของแต่ละอันจริงๆ
- สัญลักษณ์ดาว (*) หมายถึงจำนวนอักขระหรืออักขระตัวเดียว
- สัญลักษณ์ดอลลาร์ ($) ระบุจุดสิ้นสุดของ URL หากคุณลืมใส่ คุณจะบล็อก URL จำนวนมากโดยไม่ได้ตั้งใจ
หมายเหตุ : – ระวังอย่าให้ทั้งโดเมน บางครั้งคุณจะเห็นคำสั่งแบบนี้
ตัวแทนผู้ใช้: *
ไม่อนุญาต: /
คุณรู้ไหมว่าสิ่งนี้หมายถึงอะไร? คุณกำลังบอกให้เครื่องมือค้นหาไม่อนุญาตทั้งโดเมนของคุณ ดังนั้น จะไม่สร้างดัชนีหน้าเว็บใดๆ ของคุณและคุณไม่สามารถอยู่ในผลการค้นหาใดๆ ได้ ดังนั้นระวังอย่าวางสิ่งนี้โดยบังเอิญ
การทดสอบขั้นสุดท้าย:
สิ่งสำคัญคือต้องตรวจสอบว่าไฟล์ robots.txt ของคุณทำงานหรือไม่ แม้ว่าคุณจะทำถูกต้องแล้วก็ตาม ขอแนะนำให้ตรวจสอบอย่างเหมาะสม
คุณสามารถใช้เครื่องมือ robots.txt ของ Google เพื่อค้นหาว่าทุกอย่างลงตัวกับไฟล์ของคุณหรือไม่ ขั้นแรก คุณต้องลงทะเบียนไซต์ที่คุณใช้ไฟล์ robots.txt ใน Google webmaster tool หลังจากลงทะเบียนเข้าสู่เครื่องมือนั้นแล้วเลือกไซต์เฉพาะของคุณ ตอนนี้ Google จะแสดงบันทึกย่อทั้งหมดเพื่อแสดงข้อผิดพลาด
วิธีตรวจสอบว่าเว็บไซต์ของคุณมีไฟล์ robot.txt หรือไม่
คุณสามารถตรวจสอบสิ่งนี้ได้อย่างง่ายดาย ลองมาดูตัวอย่างก่อนหน้าของ word press พิมพ์ที่อยู่เว็บไซต์ของคุณ www.wordpress.com และเพิ่ม /robots.txt ด้วย เช่น www.wordpress.com/robots.txt ตอนนี้คุณสามารถดูว่าเว็บไซต์ของคุณมีไฟล์ roborts.txt หรือไม่
เคล็ดลับอื่น ๆ ของ robot.txt อย่างรวดเร็ว:
- หากคุณวาง robots.txt ไว้ในไดเร็กทอรีระดับบนสุดของเว็บไซต์ จะง่ายต่อการจดบันทึก
- หากคุณไม่อนุญาตไดเรกทอรีย่อยใดๆ ไฟล์หรือหน้าเว็บใดๆ ภายในไดเรกทอรีย่อยจะไม่อนุญาต
- Robots.txt คำนึงถึงขนาดตัวพิมพ์ คุณต้องป้อนเป็น robots.txt มิฉะนั้นจะไม่ทำงาน
- ตัวแทนผู้ใช้บางรายอาจเพิกเฉยต่อไฟล์ robots.txt ของคุณ โปรแกรมรวบรวมข้อมูลบางตัวเช่นแครปเปอร์อีเมลหรือหุ่นยนต์มัลแวร์ ฯลฯ อาจเพิกเฉยต่อไฟล์นี้
- /robots.txt เป็นแบบสาธารณะ ดังนั้นจึงเป็นการดีกว่าที่จะไม่ซ่อนข้อมูลส่วนตัวของผู้ใช้ หากคุณเพิ่ม /robots.txt ต่อท้ายโดเมนราก คุณจะเห็นหน้าเว็บที่คุณต้องการรวบรวมข้อมูลหรือไม่ต้องการรวบรวมข้อมูล หากมีไฟล์ robot.txt
- เครื่องมือค้นหาใช้เวลาหลายวันในการระบุ URL ที่ไม่อนุญาตและนำออกจากดัชนี
- แต่ละโดเมนย่อยในรูทใช้ไฟล์ robots.txt แยกกัน ตัวอย่างเช่น blog.wordpress.com และ wordpress.com ใช้ไฟล์ robots.txt แยกกัน เช่น blog.wordpress.com/robots.txt และ wordpress.com/robots.txt
- เป็นการดีกว่าที่จะเพิ่มตำแหน่งลงในแผนผังเว็บไซต์ที่ด้านล่างของไฟล์ robots.txt
คุณมีแนวคิดเกี่ยวกับแนวคิดนี้หรือไม่? มันเป็นเรื่องง่ายใช่มั้ย? คุณสามารถใช้สิ่งนี้กับเว็บไซต์ของคุณและปรับปรุงประสิทธิภาพได้ ไม่จำเป็นต้องแสดงทุกอย่างบนไซต์ของคุณ คุณสามารถซ่อนหน้าผู้ดูแลระบบหรือข้อกำหนดและเงื่อนไข ฯลฯ จากผู้ใช้ ไฟล์ Robots.txt จะช่วยคุณได้ ใช้อย่างชาญฉลาดเพื่อระบุแผนผังเว็บไซต์และทำให้การจัดทำดัชนีเว็บไซต์ของคุณเร็วขึ้น
Robot.txt ไม่ได้เป็นเพียงเกี่ยวกับการไม่อนุญาตเนื้อหาหรือไฟล์ที่ไม่ต้องการเท่านั้น มันสำคัญมากสำหรับการดาวน์โหลดที่เร็วขึ้นเช่นกัน คุณสามารถทำสิ่งนี้ได้อย่างง่ายดาย ไม่มีอะไรเกี่ยวข้องกับความรู้ทางเทคนิคที่จะทำงานนี้ ทุกคนสามารถทำได้หลังจากการวิเคราะห์ที่ดีมาก หลังจากใช้แล้ว อย่าลืมทดสอบด้วยเครื่องมือ Google.robot.txt ช่วยให้คุณระบุว่ามีข้อผิดพลาดในข้อความที่คุณเพิ่มหรือไม่
การปรับปรุงตัวเองในทุกด้านของ SEO เป็นสิ่งสำคัญมาก เมื่อคุณอยู่ในตลาดที่มีการเปลี่ยนแปลงใหม่ๆ ทุกวัน คุณต้องรู้ทุกอย่างที่เกิดขึ้นรอบตัวคุณ พยายามใช้เทคนิคที่ทันสมัยที่สุดเพื่อทำให้ไซต์ของคุณประสบความสำเร็จอย่างมาก
