คำแนะนำเชิงลึกเกี่ยวกับไฟล์ Robots.txt

เผยแพร่แล้ว: 2020-08-10

robots.txt เป็นไฟล์ที่ทรงพลังมากที่สามารถเพิ่มลงในเว็บไซต์ของคุณได้ เพื่อช่วยควบคุมว่าส่วนใดของเครื่องมือค้นหาเว็บไซต์ของคุณควรรวบรวมข้อมูลและพื้นที่ใดที่ควรละเว้น สิ่งสำคัญคือต้องตรวจสอบ robots.txt ของคุณเป็นประจำเพื่อให้แน่ใจว่าเป็นปัจจุบัน และหากเป็นไปได้ ให้ใช้เครื่องมือตรวจสอบเพื่อรับการแจ้งเตือนเมื่อมีการเปลี่ยนแปลงเกิดขึ้น

ที่ Semetrical ซึ่งเป็นส่วนหนึ่งของบริการ SEO ด้านเทคนิคของเรา เราจะตรวจสอบไฟล์ robots.txt ของลูกค้าเมื่อทำการตรวจสอบทางเทคนิคของเว็บไซต์ลูกค้าเพื่อตรวจสอบว่าเส้นทางที่ถูกบล็อกควรเป็น นอกจากนี้ หากทีม SEO พบปัญหาซึ่งเป็นส่วนหนึ่งของกระบวนการตรวจสอบทางเทคนิค SEO เช่น การทำซ้ำ กฎของ robots.txt ใหม่อาจถูกเขียนและเพิ่มลงในไฟล์

เนื่องจาก robots.txt เป็นไฟล์สำคัญ เราจึงได้รวบรวมคำแนะนำที่ครอบคลุมถึงสิ่งที่อยู่ในท้ายที่สุด เหตุใดอาจมีคนใช้และข้อผิดพลาดทั่วไปที่อาจเกิดขึ้นขณะเขียนกฎ

ไฟล์ robots txt คืออะไร

ไฟล์ robots.txt เป็นพอร์ตแรกสำหรับโปรแกรมรวบรวมข้อมูลเมื่อเข้าสู่เว็บไซต์ของคุณ เป็นไฟล์ข้อความที่แสดงรายการคำแนะนำสำหรับตัวแทนผู้ใช้ต่างๆ ซึ่งบอกโปรแกรมรวบรวมข้อมูลเว็บว่าส่วนใดของเว็บไซต์ควรได้รับการรวบรวมข้อมูลและส่วนใดควรละเว้น คำแนะนำหลักที่ใช้ในไฟล์ robots.txt มีการระบุโดยกฎ "อนุญาต" หรือ "ไม่อนุญาต"

ในอดีตกฎ "noindex" ก็ใช้ได้เช่นกัน อย่างไรก็ตาม ในปี 2019 Google หยุดสนับสนุนคำสั่ง noindex เนื่องจากเป็นกฎที่ไม่ได้เผยแพร่

หากใช้ไฟล์ไม่ถูกต้อง อาจส่งผลเสียต่อเว็บไซต์ของคุณและอาจทำให้การเข้าชมและอันดับลดลงอย่างมาก ตัวอย่างเช่น ข้อผิดพลาดอาจเกิดขึ้นได้เมื่อทั้งเว็บไซต์ถูกบล็อกจากเครื่องมือค้นหา หรือส่วนหนึ่งของเว็บไซต์ถูกบล็อกโดยไม่ได้ตั้งใจ เมื่อสิ่งนี้เกิดขึ้น การจัดอันดับที่เชื่อมต่อกับส่วนนั้นของเว็บไซต์จะค่อยๆ ลดลงและปริมาณการใช้งานจะลดลง

คุณต้องการไฟล์ robots.txt หรือไม่?

ไม่ ไม่จำเป็นที่จะมี robot.txt บนเว็บไซต์ของคุณโดยเฉพาะสำหรับเว็บไซต์ขนาดเล็กที่มี URL น้อยที่สุด แต่ขอแนะนำสำหรับเว็บไซต์ขนาดกลางถึงใหญ่ ในไซต์ขนาดใหญ่ ทำให้คุณควบคุมได้ง่ายขึ้นว่าส่วนใดของไซต์ของคุณสามารถเข้าถึงได้และส่วนใดที่ควรถูกบล็อกจากโปรแกรมรวบรวมข้อมูล หากไม่มีไฟล์ดังกล่าว เว็บไซต์ของคุณจะถูกรวบรวมข้อมูลและจัดทำดัชนีตามปกติ

ไฟล์ robots txt ส่วนใหญ่ใช้สำหรับอะไร

robots.txt มีกรณีการใช้งานมากมาย และที่ Semetrical เราได้ใช้สำหรับสถานการณ์ด้านล่าง:

การบล็อกผลการค้นหาภายในเนื่องจากหน้าเหล่านี้มักไม่มีประโยชน์สำหรับโปรแกรมรวบรวมข้อมูล และอาจทำให้เกิดความซ้ำซ้อนในเว็บไซต์จำนวนมาก
การบล็อกบางส่วนของการนำทาง facet หากบางแง่มุมไม่มีค่าจากมุมมองของ SEO แต่ยังจำเป็นสำหรับ UX เมื่อผู้ใช้อยู่ในเว็บไซต์ของคุณ
การบล็อกระดับต่างๆ ของการนำทาง facet โดยที่ระดับ facet หนึ่งอาจมีประโยชน์สำหรับเครื่องมือค้นหา แต่เมื่อรวมตัวกรอง facet ที่แตกต่างกันสองตัวกรองเข้าด้วยกัน อาจไม่เกี่ยวข้องกับเครื่องมือค้นหาในการรวบรวมข้อมูลและจัดทำดัชนี
การบล็อกพารามิเตอร์ที่ทำให้เกิดการซ้ำซ้อนหรือทำให้งบประมาณการรวบรวมข้อมูลสิ้นเปลือง นี่เป็นข้อขัดแย้งเล็กน้อยเนื่องจากผู้อื่นอาจบอกคุณว่าอย่าบล็อกพารามิเตอร์ใน robots.txt แต่สิ่งนี้ได้ผลในเว็บไซต์ไคลเอนต์ของเราจำนวนหนึ่งที่จำเป็นต้องใช้พารามิเตอร์ แต่โปรแกรมรวบรวมข้อมูลไม่จำเป็นต้องรวบรวมข้อมูล ขอแนะนำเป็นอย่างยิ่งให้ตรวจสอบว่าพารามิเตอร์ใด ๆ ที่คุณกำลังบล็อกไม่มีลิงก์ที่มีคุณค่า หรือกำลังจัดอันดับสำหรับคำหลักที่มีคุณค่าซึ่งนำไปสู่การเข้าชม
การบล็อกส่วนส่วนตัวของเว็บไซต์ เช่น หน้าชำระเงินและส่วนการเข้าสู่ระบบ
รวมตำแหน่งแผนผังไซต์ XML ของคุณเพื่อให้โปรแกรมรวบรวมข้อมูลเข้าถึง URL ทั้งหมดบนเว็บไซต์ของคุณได้ง่าย
เพื่อให้เฉพาะบอทบางตัวเท่านั้นที่เข้าถึงและรวบรวมข้อมูลเว็บไซต์ของคุณได้
การบล็อกเนื้อหาที่ผู้ใช้สร้างขึ้นซึ่งไม่สามารถกลั่นกรองได้

จะวาง robots txt ไว้ที่ไหนและจะเพิ่มลงในเว็บไซต์ของคุณได้อย่างไร

ต้องวางไฟล์ robots.txt ไว้ที่รูทของเว็บไซต์ของคุณ เช่น บนเว็บไซต์ของ Semetrical อยู่ที่ www.semetrical.com/robots.txt และต้องตั้งชื่อว่า robots.txt เว็บไซต์สามารถมี robots.txt ได้เพียง 1 ไฟล์เท่านั้น และต้องอยู่ในไฟล์ข้อความที่เข้ารหัส UTF-8 ซึ่งรวมถึง ASCII

หากคุณมีโดเมนย่อย เช่น blog.example.com แล้ว robots.txt สามารถอยู่บนรากของโดเมนย่อย เช่น blog.example.com/robots.txt

ไฟล์ robots.txt มีลักษณะอย่างไร

ไฟล์ robots.txt ทั่วไปจะประกอบด้วยส่วนประกอบและองค์ประกอบต่างๆ ซึ่งรวมถึง:

ตัวแทนผู้ใช้
ไม่อนุญาต
อนุญาต
คลานล่าช้า
แผนผังเว็บไซต์
ความคิดเห็น (บางครั้งคุณอาจเห็นสิ่งนี้)

ด้านล่างนี้คือตัวอย่างของ Semetrcals robots.txt ที่มี user-agent, disallow rule และแผนผังไซต์

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Disallow: /trackback/ Disallow: /index.php/ Disallow: /xmlrpc.php Disallow: /blog-documentation/ Disallow: /test/ Disallow: /hpcontent/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

ตัวแทนผู้ใช้

user-agent กำหนดจุดเริ่มต้นของกลุ่มคำสั่ง มักจะแสดงด้วยสัญลักษณ์แทน (*) ซึ่งบ่งชี้ว่าคำแนะนำด้านล่างมีไว้สำหรับบอททั้งหมดที่เข้าชมเว็บไซต์ ตัวอย่างนี้จะเป็น:

ตัวแทนผู้ใช้: *

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

มีบางครั้งที่คุณอาจต้องการบล็อกบอทบางตัวหรืออนุญาตเฉพาะบอทบางตัวเท่านั้นไม่ให้เข้าถึงบางหน้า ในการดำเนินการนี้ คุณต้องระบุชื่อบอทเป็นตัวแทนผู้ใช้ ตัวอย่างนี้จะเป็น:

 User-agent: AdsBot-Google Disallow: /checkout/reserve Disallow: /resale/checkout/order Disallow: /checkout/reserve_search

User-agent ทั่วไปที่ควรทราบ ได้แก่:

นอกจากนี้ยังมีความสามารถในการบล็อกซอฟต์แวร์เฉพาะจากการรวบรวมข้อมูลเว็บไซต์ของคุณ หรือชะลอจำนวน URL ที่พวกเขาสามารถรวบรวมข้อมูลได้ในหนึ่งวินาที เนื่องจากแต่ละเครื่องมือจะมี User Agent ของตนเองที่รวบรวมข้อมูลเว็บไซต์ของคุณ ตัวอย่างเช่น หากคุณต้องการบล็อก SEMRush หรือ Ahrefs จากการรวบรวมข้อมูลเว็บไซต์ของคุณ ไฟล์ด้านล่างนี้จะถูกเพิ่มลงในไฟล์ของคุณ:

 User-agent: SemrushBot Disallow: * User-agent: AhrefsBot Disallow: *

หากคุณต้องการชะลอจำนวน URL ที่รวบรวมข้อมูล กฎด้านล่างจะถูกเพิ่มลงในไฟล์ของคุณ:

 User-agent: AhrefsBot Crawl-Delay: [value] User-agent: SemrushBot Crawl-Delay: [value]

ไม่อนุญาตคำสั่ง

คำสั่ง disallow เป็นกฎที่ผู้ใช้สามารถใส่ในไฟล์ robots.txt ที่จะบอกให้เครื่องมือค้นหาไม่รวบรวมข้อมูลเส้นทางเฉพาะหรือชุดของ URL ขึ้นอยู่กับกฎที่สร้างขึ้น ในไฟล์อาจมีกฎไม่อนุญาตหนึ่งบรรทัดหรือหลายบรรทัด เนื่องจากคุณอาจต้องการบล็อกหลายส่วนของเว็บไซต์

หากคำสั่ง disallow ว่างเปล่าและไม่ระบุสิ่งใด บอทสามารถรวบรวมข้อมูลเว็บไซต์ทั้งหมดได้ ดังนั้นเพื่อบล็อกเส้นทางบางเส้นทางหรือทั้งเว็บไซต์ของคุณ คุณต้องระบุคำนำหน้า URL หรือเครื่องหมายทับ “/” ตัวอย่างเช่น ในตัวอย่างด้านล่าง เรากำลังบล็อก URL ที่รันนอกเส้นทางของ /cgi-bin/ หรือ /wp-admin/

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

หากคุณต้องการบล็อกทั้งเว็บไซต์ของคุณจากบอทเช่น Google คุณจะต้องเพิ่มคำสั่ง disallow ตามด้วยเครื่องหมายทับ โดยปกติ คุณอาจต้องทำสิ่งนี้ในสภาพแวดล้อมการจัดเตรียม เมื่อคุณไม่ต้องการให้เว็บไซต์แสดงหรือถูกจัดทำดัชนี ตัวอย่างจะมีลักษณะดังนี้:

 User-agent: * Disallow: /

อนุญาตคำสั่ง

เสิร์ชเอ็นจิ้นส่วนใหญ่จะปฏิบัติตามคำสั่ง allow ซึ่งโดยหลักแล้วจะต่อต้านคำสั่ง disallow ตัวอย่างเช่น หากคุณบล็อก /wp-admin/ โดยปกติแล้วจะบล็อก URL ทั้งหมดที่อยู่นอกเส้นทางนั้น อย่างไรก็ตาม หากมีกฎการอนุญาตสำหรับ /wp-admin/admin-ajax.php บอทจะรวบรวมข้อมูล / admin-ajax.php แต่บล็อกเส้นทางอื่นที่ปิด /wp-admin/ ดูตัวอย่างด้านล่าง:

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

ความล่าช้าในการรวบรวมข้อมูล

คำสั่งการหน่วงเวลาการรวบรวมข้อมูลช่วยชะลออัตราที่บอทจะรวบรวมข้อมูลเว็บไซต์ของคุณ เครื่องมือค้นหาบางตัวเท่านั้นที่จะปฏิบัติตามคำสั่งการหน่วงเวลาการรวบรวมข้อมูลเนื่องจากเป็นกฎที่ไม่เป็นทางการ

– Google จะไม่ปฏิบัติตามคำสั่งนี้

– Baidu จะไม่ปฏิบัติตามคำสั่งนี้

– Bing และ Yahoo รองรับคำสั่งการหน่วงเวลาการรวบรวมข้อมูลโดยที่กฎสั่งให้บอทรอ “n” วินาทีหลังจากการรวบรวมข้อมูล

– ยานเดกซ์ยังสนับสนุนคำสั่งการหน่วงเวลาการรวบรวมข้อมูล แต่จะตีความกฎแตกต่างกันเล็กน้อย ซึ่งจะเข้าถึงเว็บไซต์ของคุณเพียงครั้งเดียวในทุก ๆ “n” วินาที”

ตัวอย่างของคำสั่งการหน่วงเวลาการรวบรวมข้อมูลด้านล่าง:

 User-agent: BingBot Disallow: /wp-admin/ Crawl-delay: 5

คำสั่งแผนผังเว็บไซต์

คำสั่งแผนผังเว็บไซต์สามารถบอกเครื่องมือค้นหาว่าจะหาแผนผังเว็บไซต์ XML ได้ที่ไหน และทำให้เครื่องมือค้นหาต่างๆ ค้นหา URL บนเว็บไซต์ของคุณได้ง่าย เครื่องมือค้นหาหลักที่จะปฏิบัติตามคำสั่งนี้ ได้แก่ Google, Bing, Yandex และ Yahoo

ขอแนะนำให้วางคำสั่งแผนผังเว็บไซต์ที่ด้านล่างของไฟล์ robots.txt ตัวอย่างด้านล่างนี้:

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

ความคิดเห็น

ไฟล์ robots.txt สามารถใส่ความคิดเห็นได้ แต่การแสดงความคิดเห็นมีไว้สำหรับมนุษย์เท่านั้น ไม่ใช่บอท เนื่องจากระบบจะไม่สนใจสิ่งใดหลังจากแฮชแท็ก ความคิดเห็นอาจมีประโยชน์ด้วยเหตุผลหลายประการ ซึ่งรวมถึง:

– ให้เหตุผลว่าทำไมกฎบางอย่างถึงมีอยู่

– อ้างอิงที่เพิ่มกฎ

– การอ้างอิงว่าส่วนใดของไซต์ที่กฎมีไว้สำหรับ

– อธิบายว่ากฎกำลังทำอะไรอยู่

– ด้านล่างแสดงตัวอย่างความคิดเห็นในไฟล์ robots.txt ต่างๆ:

 #Student Disallow: /student/*-bed-flats-* Disallow: /student/*-bed-houses* Disallow: /comments/feed/ #Added by Semetrical Disallow: /jobs*/full-time/* Disallow: /jobs*/permanent/* #International Disallow: */company/fr/* Disallow: */company/de/*

การเรียงลำดับของกฎมีความสำคัญหรือไม่?

การเรียงลำดับกฎไม่สำคัญ แต่เมื่อกฎอนุญาตและไม่อนุญาตหลายกฎมีผลกับ URL กฎเส้นทางที่ตรงกันที่ยาวที่สุดคือกฎที่ใช้และมีความสำคัญเหนือกฎที่สั้นกว่าซึ่งเจาะจงน้อยกว่า หากเส้นทางทั้งสองมีความยาวเท่ากัน ก็จะใช้กฎที่มีข้อจำกัดน้อยกว่า หากคุณต้องการเส้นทาง URL เฉพาะเพื่ออนุญาตหรือไม่อนุญาต คุณสามารถสร้างกฎให้ยาวขึ้นโดยใช้ "*" เพื่อทำให้สตริงยาวขึ้น ตัวอย่างเช่น Disallow: ********/make-longer

ในเว็บไซต์ของ Google เอง พวกเขาได้แสดงรายการชุดสถานการณ์ตัวอย่างซึ่งแสดงกฎลำดับความสำคัญที่มีความสำคัญเหนือกว่า ตารางด้านล่างนำมาจาก Google

วิธีตรวจสอบไฟล์ robots.txt ของคุณ

การตรวจสอบและตรวจสอบไฟล์ robots.txt ของคุณเป็นสิ่งสำคัญเสมอก่อนที่จะเผยแพร่ เนื่องจากการมีกฎที่ไม่ถูกต้องอาจส่งผลกระทบอย่างมากต่อเว็บไซต์ของคุณ

วิธีที่ดีที่สุดในการทดสอบคือไปที่เครื่องมือทดสอบ robots.txt ใน Search Console และทดสอบ URL ต่างๆ ที่ควรบล็อกด้วยกฎที่มีอยู่ นี่เป็นวิธีที่ยอดเยี่ยมในการทดสอบกฎใหม่ที่คุณต้องการเพิ่มลงในไฟล์

ตัวอย่างการใช้นิพจน์ทั่วไปใน robots.txt

เมื่อสร้างกฎในไฟล์ robots.txt คุณสามารถใช้การจับคู่รูปแบบเพื่อบล็อกช่วงของ URL ในกฎที่ไม่อนุญาตหนึ่งกฎ สามารถใช้นิพจน์ทั่วไปเพื่อทำการจับคู่รูปแบบและอักขระหลักสองตัวที่ทั้ง Google และ Bing ปฏิบัติตามโดยรวมถึง:

เครื่องหมายดอลลาร์ ($) ซึ่งตรงกับส่วนท้ายของ URL
เครื่องหมายดอกจัน (*) ซึ่งเป็นกฎสัญลักษณ์แทนที่แสดงถึงลำดับของอักขระใดๆ

ตัวอย่างของการจับคู่รูปแบบที่ Semetrical:

 Disallow: */searchjobs/*

การดำเนินการนี้จะบล็อก URL ใดๆ ที่มีเส้นทางของ /searchjobs/ เช่น: www.example.com/searchjobs/construction สิ่งนี้จำเป็นสำหรับลูกค้า เนื่องจากส่วนการค้นหาในไซต์ของพวกเขาจำเป็นต้องถูกบล็อก ดังนั้นเครื่องมือค้นหาจะไม่รวบรวมข้อมูลและจัดทำดัชนีส่วนนั้นของไซต์

 Disallow: /jobs*/full-time/*

การดำเนินการนี้จะบล็อก URL ที่มีเส้นทางหลัง /jobs/ ตามด้วย /full-time/ เช่น

www.example.com/jobs/admin-secretial-and-pa/full-time/

. ในสถานการณ์นี้ เราต้องการเต็มเวลาเป็นตัวกรองสำหรับ UX แต่สำหรับเครื่องมือค้นหา ไม่จำเป็นต้องจัดทำดัชนีหน้าเพื่อรองรับ "ตำแหน่งงาน" + "เต็มเวลา"

 Disallow: /jobs*/*-000-*-999/*

สิ่งนี้จะบล็อก URL ที่มีตัวกรองเงินเดือนเช่น

www.example.com/jobs/city-of-bristol/-50-000-59-999/

. ในสถานการณ์สมมตินี้ เราจำเป็นต้องมีตัวกรองเงินเดือน แต่ไม่จำเป็นต้องใช้เครื่องมือค้นหาเพื่อรวบรวมข้อมูลหน้าเงินเดือนและจัดทำดัชนี

 Disallow: /jobs/*/*/flexible-hours/

การดำเนินการนี้จะบล็อก URL ที่มีชั่วโมงที่ยืดหยุ่นได้และรวมถึงเส้นทางด้านสองทางระหว่างนั้น ในสถานการณ์นี้ เราพบผ่านการวิจัยคำหลักที่ผู้ใช้สามารถค้นหาสถานที่ + ชั่วโมงการทำงานที่ยืดหยุ่นได้ + ชั่วโมงการทำงานที่ยืดหยุ่นได้ แต่ผู้ใช้จะไม่ค้นหา "ตำแหน่งงาน" + "สถานที่" + "ชั่วโมงที่ยืดหยุ่น" URL ตัวอย่างดูเหมือน

www.example.com/jobs/admin-secretrial-and-pa/united-kingdom/flexible-hours/

 Disallow: */company/*/*/*/people$

การดำเนินการนี้จะบล็อก URL ที่มีสามเส้นทางระหว่างบริษัทและบุคคล ตลอดจน URL ที่ลงท้ายด้วยบุคคล ตัวอย่างจะเป็น

www.example.com/company/gb/04905417/company-check-ltd/people

 Disallow: *?CostLowerAsNumber=*

กฎนี้จะบล็อกตัวกรองพารามิเตอร์ที่สั่งซื้อการกำหนดราคา

 Disallow: *?Radius=* Disallow: *?radius=*

กฎสองข้อนี้บล็อกบอตไม่ให้รวบรวมข้อมูล URL พารามิเตอร์ที่เปลี่ยนรัศมีของการค้นหาผู้ใช้ มีการเพิ่มกฎทั้งตัวพิมพ์ใหญ่และตัวพิมพ์เล็กเนื่องจากไซต์รวมทั้งสองเวอร์ชัน

สิ่งที่ควรทราบด้วย robots.txt

robots.txt คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ ดังนั้นคุณจึงต้องใช้ตัวพิมพ์ที่ถูกต้องในกฎของคุณ เช่น /hello/ จะถือว่าแตกต่างไปจาก /Hello/
หากต้องการให้เสิร์ชเอ็นจิ้น เช่น Google แคช robots.txt ใหม่เร็วขึ้นเพื่อค้นหากฎใหม่ คุณสามารถตรวจสอบ URL ของ robots.txt ใน Search Console และขอสร้างดัชนี
หากเว็บไซต์ของคุณใช้ robots.txt ที่มีกฎจำนวนหนึ่ง และ URL ของ robots.txt ของคุณแสดงรหัสสถานะ 4xx เป็นระยะเวลานาน กฎจะถูกละเว้นและหน้าเว็บที่ถูกบล็อกจะสามารถจัดทำดัชนีได้ สิ่งสำคัญคือต้องตรวจสอบให้แน่ใจว่ามีการแสดงรหัสสถานะ 200 เสมอ
หากเว็บไซต์ของคุณไม่ทำงาน ตรวจสอบให้แน่ใจว่า robots.txt ส่งคืนรหัสสถานะ 5xx เนื่องจากเครื่องมือค้นหาจะเข้าใจว่าเว็บไซต์หยุดให้บริการเพื่อการบำรุงรักษา และจะกลับมารวบรวมข้อมูลเว็บไซต์อีกครั้งในภายหลัง
เมื่อ URL ได้รับการจัดทำดัชนีแล้ว และเพิ่มการไม่อนุญาตลงในเว็บไซต์ของคุณเพื่อลบ URL เหล่านั้นออกจากดัชนี อาจต้องใช้เวลาสักระยะก่อนที่ URL เหล่านั้นจะถูกลบและนำออก นอกจากนี้ URL ยังสามารถอยู่ในดัชนีได้ชั่วขณะหนึ่ง แต่คำอธิบายเมตาจะแสดงข้อความเช่น “ไม่มีคำอธิบายสำหรับผลลัพธ์นี้เนื่องจาก robots.txt ของไซต์นี้ – เรียนรู้เพิ่มเติม”
กฎการไม่อนุญาตของ robots.txt ไม่ได้รับประกันว่าหน้าจะไม่ปรากฏในผลการค้นหาเสมอไป เนื่องจาก Google อาจยังคงตัดสินใจ โดยพิจารณาจากปัจจัยภายนอก เช่น ลิงก์ขาเข้า ว่าหน้าเว็บนั้นมีความเกี่ยวข้องและควรได้รับการจัดทำดัชนี
หากคุณมีกฎที่ไม่อนุญาตและใส่แท็ก "ไม่มีดัชนี" ไว้ในซอร์สโค้ดของหน้า ระบบจะละเว้น "ไม่มีดัชนี" เนื่องจากเครื่องมือค้นหาไม่สามารถเข้าถึงหน้าเพื่อค้นหาแท็ก "ไม่มีดัชนี"
กฎการไม่อนุญาตบนหน้าที่จัดทำดัชนี โดยเฉพาะหน้าที่มีลิงก์เข้ามาหมายความว่าคุณจะสูญเสียส่วนของลิงก์ของลิงก์ย้อนกลับที่อาจส่งต่อเพื่อประโยชน์ของหน้าอื่นๆ นี่คือเหตุผลสำคัญที่ต้องตรวจสอบว่าหน้ามีลิงก์ย้อนกลับหรือไม่ก่อนที่จะเพิ่มกฎที่ไม่อนุญาต
หากเครื่องหมายทับในพาธหายไปเมื่อเขียนกฎอนุญาตหรือไม่อนุญาต กฎจะถูกละเว้น ตัวอย่างเช่น “ไม่อนุญาต: ค้นหางาน

หากคุณต้องการพูดคุยกับผู้เชี่ยวชาญด้าน SEO ด้านเทคนิคของเราที่ Semetrical โปรดไปที่หน้าบริการ SEO ด้านเทคนิคเพื่อดูข้อมูลเพิ่มเติม