5 ข้อผิดพลาดที่ควรหลีกเลี่ยงในแผนผังเว็บไซต์
เผยแพร่แล้ว: 2022-03-15เราได้สร้างเครื่องมือที่ช่วยให้เราตรวจสอบจำนวนหน้าในเว็บไซต์หนึ่งๆ ที่ได้รับการจัดทำดัชนีใน Google
จนถึงตอนนี้ เราได้ตรวจสอบเว็บไซต์หลายร้อยแห่ง และเครื่องมือนี้ช่วยเราวิเคราะห์ปัญหา SEO ที่ลูกค้าของเรากำลังเผชิญอยู่ เช่น เว็บไซต์ที่เชื่อมต่อกับงบประมาณการรวบรวมข้อมูลและการจัดทำดัชนี
เรามักพบความผิดปกติของข้อมูลเมื่อตรวจสอบปัญหาเหล่านี้และพบ เว็บไซต์จำนวนมากที่มีข้อผิดพลาดร้ายแรงในแผนผังเว็บไซต์
สิ่งนี้จะส่งผลต่อเว็บไซต์ของคุณอย่างไร
หากแผนผังไซต์ของคุณไม่ได้รับการติดตั้งอย่างถูกต้อง Googlebot สามารถใช้เวลามากในการรวบรวมข้อมูล URL ที่มีคุณภาพต่ำ ซึ่งเป็นการสิ้นเปลืองงบประมาณในการรวบรวมข้อมูล ด้วยเหตุนี้ URL ที่มีคุณค่าจำนวนมากในเว็บไซต์ของคุณอาจไม่ได้รับการจัดทำดัชนีใน Google เนื่องจากจะมีทรัพยากรไม่เพียงพอที่จะรวบรวมข้อมูล
เว็บไซต์ยอดนิยมทำผิดพลาดอะไรบ้างในแผนผังเว็บไซต์ และคุณจะหลีกเลี่ยงได้อย่างไรเพื่อให้มั่นใจว่า Google จะไม่เสียงบประมาณในการรวบรวมข้อมูลไปกับเนื้อหาที่ไม่เกี่ยวข้อง
มาขุดกันเถอะ
งบประมาณการรวบรวมข้อมูลคืออะไร?
อันดับแรก ให้ฉันอธิบายว่า งบประมาณการรวบรวมข้อมูล คืออะไรและมีความเกี่ยวข้องอย่างไรกับการจัดทำดัชนีเว็บไซต์
Google สามารถรวบรวมข้อมูลเนื้อหาจำนวนมากได้ แต่ทรัพยากรนั้นไม่สิ้นสุด ดังนั้นจึงต้องตัดสินใจเลือกทรัพยากรที่มีอยู่
นั่นคือเหตุผลที่ Googlebot กำหนดงบประมาณการรวบรวมข้อมูลสำหรับเว็บไซต์ทั้งหมด ซึ่งเป็นจำนวน URL ที่สามารถทำได้และต้องการรวบรวมข้อมูล
งบประมาณการรวบรวมข้อมูลของไซต์ขึ้นอยู่กับ สองเมตริก :
- ขีดจำกัดความสามารถในการรวบรวมข้อมูล – คำนวณเพื่อรวบรวมข้อมูลเนื้อหาที่สำคัญทั้งหมดบนเว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์เกินขีดจำกัด – และ
- ความต้องการรวบรวมข้อมูล – พิจารณาจากขนาด ความนิยม และความถี่ในการอัปเดตของเว็บไซต์
หากไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดของเซิร์ฟเวอร์ ขีดจำกัดจะลดลงและ Googlebot จะรวบรวมข้อมูลน้อยลงที่มา: เอกสารของ Google
เนื่องจากความสามารถที่จำกัดของ Googlebot คุณควรวางแผนว่า URL ใดที่ Googlebot จะรวบรวมข้อมูลบนเว็บไซต์ของคุณ
กุญแจสำคัญในการปรับ URL ที่จะรวบรวมข้อมูลมีอธิบายไว้ในเอกสารของ Google:
จัดการรายการ URL ของคุณ: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าหน้าใดที่จะรวบรวมข้อมูลและหน้าใดที่ไม่ควรรวบรวมข้อมูล หาก Google ใช้เวลามากเกินไปในการรวบรวมข้อมูล URL ที่ไม่เหมาะสมกับดัชนี Googlebot อาจตัดสินใจว่าไม่คุ้มที่จะเสียเวลาดูส่วนอื่นๆ ของเว็บไซต์ของคุณที่มา: เอกสารของ Google
เพื่อสรุป – นี่คือสิ่งที่เรารู้จนถึงตอนนี้:
- หากเว็บไซต์ของคุณช้า Google อาจรวบรวมข้อมูล URL น้อยลง ดังนั้น URL ที่น้อยลงจะหาทางเข้าสู่ดัชนีของ Google
- หาก Google สามารถค้นพบ URL ที่มีคุณภาพต่ำจำนวนมากเมื่อรวบรวมข้อมูลไซต์ของคุณ Google อาจตัดสินว่าคุณภาพโดยรวมของไซต์ของคุณต่ำ
นี่เป็นข้อปฏิบัติที่สำคัญ:
ด้วย URL ที่มีคุณภาพต่ำจำนวนมากสำหรับ Google ในการรวบรวมข้อมูล Googlebot อาจเสียเวลามากมายในการรวบรวมข้อมูลและอาจไม่สามารถรวบรวมข้อมูล URL ที่มีคุณภาพสูงจำนวนมากบนเว็บไซต์ของคุณได้
ซึ่งจะมีน้ำหนักมากที่สุดสำหรับเว็บไซต์ขนาดใหญ่หรือมีการเปลี่ยนแปลงอย่างรวดเร็ว เนื่องจากต้องมีการรวบรวมข้อมูลบ่อยครั้งและครอบคลุมเพื่อดึงดูดการเข้าชม
แผนผังเว็บไซต์มีความสำคัญต่องบประมาณการรวบรวมข้อมูลของคุณอย่างไร
ตามที่เราได้อธิบายไป การเพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูลเป็นขั้นตอนที่สำคัญอย่างยิ่งในการจัดทำดัชนีเว็บไซต์ของคุณ
วิธีหนึ่งในการ จัดการพื้นที่โฆษณา URL ของคุณ คือ การสร้างและบำรุงรักษาแผนผังเว็บไซต์ที่ปรับให้เหมาะสมที่สุด
แผนผังเว็บไซต์ คือไฟล์ที่คุณให้ข้อมูลเกี่ยวกับหน้า วิดีโอ และไฟล์อื่นๆ บนไซต์ของคุณ และความสัมพันธ์ระหว่างพวกเขา […] แผนผังเว็บไซต์จะบอก Google ว่าหน้าและไฟล์ใดที่คุณคิดว่ามีความสำคัญในเว็บไซต์ของคุณ และยังให้ข้อมูลที่มีค่าเกี่ยวกับไฟล์เหล่านี้อีกด้วย ตัวอย่างเช่น เวลาที่อัปเดตหน้าล่าสุดและเวอร์ชันภาษาอื่นของหน้าที่มา: เอกสารของ Google
อย่างไรก็ตาม เว็บไซต์จำนวนมากล้มเหลวในการสร้างแผนผังเว็บไซต์ที่ปรับให้เหมาะสมที่สุด โชคดีที่เราสามารถเรียนรู้จากความผิดพลาดของพวกเขาได้
คุณควรหลีกเลี่ยงข้อผิดพลาดใดในแผนผังเว็บไซต์
ฉันวิเคราะห์ ไซต์ยอดนิยมหลายแห่ง และพบว่าไซต์จำนวนมากทำผิดพลาดในแผนผังไซต์ซึ่งส่งผลเสียต่องบประมาณการรวบรวมข้อมูล ซึ่งอาจนำไปสู่ปัญหากับความครอบคลุมของดัชนี
นี่คือรายละเอียดข้อผิดพลาดที่ควรหลีกเลี่ยงเมื่อสร้างแผนผังเว็บไซต์
การส่ง URL ที่มีรูปแบบไม่ถูกต้อง
ข้อผิดพลาดประการหนึ่งที่ฉันค้นพบเกี่ยวข้อง กับโครงสร้างของ URL ในแผนผังเว็บไซต์
ลองวิเคราะห์โดยดูตัวอย่างเฉพาะ
Whisky.de
เมื่อฉันเห็นสถิติที่รวบรวมโดยซอฟต์แวร์ของเรา ฉันรู้สึกทึ่ง: พบว่า 0% ของหน้าของ whisky.de ที่ส่งในแผนผังไซต์ได้รับการจัดทำดัชนีใน Google
ฉันรู้ว่าสิ่งนี้ไม่เป็นความจริง ฉันจึงตรวจสอบข้อมูลเพิ่มเติม
URL ส่วนใหญ่ใน แผนผังเว็บไซต์ของ whisky.de ดูเหมือนถูกต้อง:
- พวกเขาเป็นที่ยอมรับ
- พวกเขาไม่ถูกบล็อกโดยเมตาแท็ก noindex robots
- พวกเขาไม่ถูกบล็อกโดยคำสั่ง disallow ใน robots.txt
- พวกเขาตอบกลับด้วยรหัสสถานะ 200
แต่แล้วฉันก็สังเกตเห็นว่า URL ทั้งหมดมีเครื่องหมายทับสองครั้งตามโดเมนระดับบนสุด – ดูตัวอย่างนี้:
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaesstern.html
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
- https://www.whisky.de//presse/pressespiegel/playboy.html
เครื่องหมายทับคู่ดูเหมือนจะเป็นข้อผิดพลาดทางโปรแกรมที่ชัดเจนขณะสร้างแผนผังเว็บไซต์และอีกอย่างที่แก้ไขได้ง่าย
อย่างไรก็ตาม หน้าที่รวมอยู่ในแผนผังเว็บไซต์มีแท็กตามรูปแบบบัญญัติที่ชี้ไปยัง URL ที่เกี่ยวข้อง ซึ่งเป็นเวอร์ชันที่ถูกต้องโดยใช้เครื่องหมายทับเดียว

ด้วยเหตุนี้ จึง มีความเป็นไปได้สูงที่ Google จะเข้าชม URL มากเป็นสองเท่าตามที่ตั้งใจไว้: URL ที่มีเครื่องหมายทับเดียวและเครื่องหมายทับคู่
Google มีกลไกในการระบุรูปแบบที่ผิดพลาดใน URL และในทางเทคนิคแล้ว เป็นไปได้ที่ Google ตรวจพบข้อผิดพลาดนั้น ดังนั้นจึงอาจรวบรวมข้อมูล whisky.de ตามลำดับและจัดทำดัชนี URL ที่มีโครงสร้างอย่างถูกต้อง แต่ไม่มีทางที่เราจะตรวจสอบได้หากไม่มีการเข้าถึงบัญชี Google Search Console หรือบันทึกเซิร์ฟเวอร์ของเว็บไซต์
ในทางปฏิบัติ คุณไม่ควรใช้อัลกอริธึมของ Google ในการแก้ไขข้อผิดพลาด แนวทางปฏิบัติเช่นเดียวกับที่ฉันอธิบายอาจทำให้งบประมาณการรวบรวมข้อมูลของคุณตึงเครียด และทำให้หน้าเว็บของคุณไม่อยู่ในดัชนีของ Google
การส่ง URL เนื้อหาแบบบาง
มีเว็บไซต์จำนวนมากที่ มีหน้าเนื้อหาบางในแผนผังเว็บไซต์
ผมขอแสดงให้คุณเห็นตัวอย่าง
แอนเทเลอร์
ฉันค้นพบข้อผิดพลาดนี้ใน AnnTaylor.com ร้านค้าชั้นนำที่มีเสื้อผ้าผู้หญิง
ฉันต้องการตรวจสอบว่ามีหมวดหมู่ผลิตภัณฑ์กี่ประเภทที่ได้รับการจัดทำดัชนีใน Google ดังนั้นฉันจึงตรวจสอบ แผนผังไซต์สำหรับหน้าหมวดหมู่โดยเฉพาะ
การตรวจสอบเบื้องต้นพบว่ามีเพียง 46% ของหน้าหมวดหมู่ที่ได้รับการจัดทำดัชนีใน Google
ดังนั้นฉันจึงตรวจสอบรายละเอียดเพิ่มเติมและพบว่าหน้าหมวดหมู่ส่วนใหญ่เป็น 404 แบบอ่อน
โดยเฉพาะ หน้าเหล่านี้แสดงข้อความต่อไปนี้:

ไม่แปลกใจเลยที่ Google ไม่ต้องการจัดทำดัชนี!
ขั้นตอนต่อไปคือการ แยก soft 404 ออกจากตัวอย่างของฉัน เพื่อจุดประสงค์นั้น ฉันจึงตรวจสอบสถานะการจัดทำดัชนีของแผนผังเว็บไซต์เดียวกัน แต่ใช้ทริกเกอร์ที่ยกเว้นหน้าเว็บที่มีวลี "เราค้นหาอย่างมีสไตล์และไม่มีโชค" ดังตัวอย่างในภาพด้านบน
ปรากฎว่าหลังจากยกเว้น soft 404 URLs มากถึง 82% ของหน้าในแผนผังเว็บไซต์หมวดหมู่ของพวกเขาได้รับการจัดทำดัชนี
ถึงกระนั้น 18% ของหน้าหมวดหมู่ไม่ได้รับการจัดทำดัชนีใน Google – นั่นคือสิ่งที่ SEO ของพวกเขาควรเน้นที่การตรวจสอบ
สถานการณ์ของ AnnTaylor นั้นร้ายแรงด้วยเหตุผลดังต่อไปนี้:
- ประการแรก Google กำลังสูญเสียงบประมาณในการรวบรวมข้อมูลในการรวบรวมข้อมูลเนื้อหาบางส่วน
- นอกจากนี้ ไม่ใช่เรื่องลึกลับที่ Google ตัดสินคุณภาพในสามระดับ: หน้า ส่วน และทั่วทั้งไซต์ Google อาจตัดสินว่าหน้าหมวดหมู่โดยทั่วไปมีคุณภาพต่ำ และหน้าหมวดหมู่ทั้งหมดอาจถูกยกเลิกการจัดทำ ดัชนี ในอดีต มันเกิดขึ้นกับเว็บไซต์อย่าง Giphy, Instagram หรือ Pinterest ตามที่ฉันอธิบายไว้ในบทความของฉัน หวังว่ามันจะไม่เกิดขึ้นกับแอนเทเลอร์
ข้าม URL ที่มีค่า
ตามที่ได้กล่าวไปแล้วแผนผังเว็บไซต์ช่วยให้ Google เข้าใจเว็บไซต์ของคุณดีขึ้นและรวบรวมข้อมูลได้อย่างชาญฉลาดยิ่งขึ้น
อย่างไรก็ตาม ฉันสังเกตเห็นว่า เว็บไซต์จำนวนมากไม่ได้รวม URL ที่มีค่าที่สุดในแผนผังเว็บไซต์
นี่คือตัวอย่างหนึ่ง
GoodReads
ฉันตรวจสอบตัวอย่างทั่วไป (นำมาจาก URL ทั้งหมดจาก แผนผังเว็บไซต์ ) สำหรับ GoodReads และพบว่ามี เพียง 35% เท่านั้นที่ได้รับการจัดทำดัชนี
ฉันประหลาดใจมากเพราะรู้ว่าเป็นเว็บไซต์คุณภาพสูง ฉันรู้ว่าฉันไม่ใช่คนเดียวที่เข้าชม GoodReads เพื่ออ่านบทวิจารณ์และเรียนรู้ว่าหนังสือเล่มใดควรค่าแก่การอ่าน
จากนั้น ฉันดูตัวอย่างที่เราตรวจสอบแล้วไม่มี URL ที่มีหนังสือรวมอยู่ด้วย ดังนั้นฉันจึงตัดสินใจดาวน์โหลดแผนผังเว็บไซต์ทั้งหมด
ผลลัพธ์: ไม่มี URL ที่มีหนังสือในแผนผังเว็บไซต์
ทำไมมันเป็นสัญญาณที่ไม่ดี?
มีความเสี่ยงที่ Google จะจัดลำดับความสำคัญของ URL ที่พบในแผนผังเว็บไซต์และข้ามการเยี่ยมชมหน้าผลิตภัณฑ์
ข้อจำกัดความรับผิดชอบ: GoodReads ไม่ใช่ลูกค้าของเรา ดังนั้น ในทางเทคนิคแล้ว เป็นไปได้ที่พวกเขาส่งแผนผังเว็บไซต์ส่วนตัวไปยัง Google Search Console
ใช้พารามิเตอร์ <lastmod> มากเกินไป
พารามิเตอร์ตัวหนึ่งที่คุณสามารถรวมไว้ในไฟล์แผนผังเว็บไซต์ได้คือ <lastmod> ซึ่งระบุเวลาล่าสุดที่หน้าเว็บได้รับการอัปเดต ด้วยวิธีนี้ Google สามารถเลือก URL ที่เปลี่ยนแปลงไปเมื่อเร็วๆ นี้ได้อย่างง่ายดาย
อย่างไรก็ตาม บางเว็บไซต์ใช้เทคนิคนี้มากเกินไป และการทำเช่นนี้อาจมีผลเสียเพราะดังที่เราอ่านใน หลักเกณฑ์ของ Google “ Google ใช้ค่า <lastmod> หากค่าสม่ำเสมอและตรวจสอบได้ (เช่น โดยเปรียบเทียบกับการแก้ไขหน้าเว็บครั้งล่าสุด) ถูกต้อง”
มาดูตัวอย่างเว็บไซต์ที่ใช้พารามิเตอร์ <lastmod> มากเกินไป
เอวอน
ฉันดู แผนผังเว็บไซต์ผลิตภัณฑ์ของ Avon และ URL ที่แสดงทั้งหมดมีพารามิเตอร์ <lastmod> เหมือนกัน – วันปัจจุบัน:

ถือว่าปลอดภัยที่จะถือว่า URL ของ Avon ไม่ได้เปลี่ยนแปลงทุกวัน ดังนั้น Google จึงไม่เต็มใจที่จะสร้างดัชนีหน้าเว็บ
การลิงก์ไปยังสภาพแวดล้อมการแสดงละครของคุณภายในแผนผังเว็บไซต์
เป็นเรื่องปกติที่ Google จะสร้างดัชนี URL การแสดงละคร
มักจะเป็นเรื่องลึกลับที่ Google พบลิงก์ไปยังหน้าดังกล่าว แต่คำอธิบายทั่วไปก็คือ URL เหล่านี้เชื่อมโยงโดยตรงจากแผนผังเว็บไซต์
Acehardware.com
โปรดทราบว่า acehardware.com ได้อัปเดตแผนผังเว็บไซต์และแก้ไขข้อผิดพลาดด้านล่างแล้ว
นี่คือตัวอย่างที่ฉันตรวจสอบในตอนแรก
อย่างที่คุณเห็น ฉันพบว่าพวกเขากำลังเชื่อมโยงไปยังไซต์การแสดงละครจาก แผนผังไซต์ของพวกเขา

เหตุใดการรวมสภาพแวดล้อมการแสดงละครของคุณในแผนผังเว็บไซต์จึงไม่ดี
- Google รวบรวมข้อมูล URL ที่ไม่จำเป็น
- หากมีการทำดัชนี URL การแสดงละคร จะทำให้ผู้ใช้สับสนในการค้นหาข้อมูลเฉพาะและสะดุดกับพวกเขาในผลการค้นหา
แนวทางปฏิบัติที่ดีที่สุดที่ควรปฏิบัติตามในแผนผังเว็บไซต์
คุณได้อ่านภาพรวมของฉันเกี่ยวกับสิ่งที่ควรหลีกเลี่ยงเมื่อสร้างและจัดการแผนผังเว็บไซต์สำหรับเว็บไซต์
ตอนนี้ คุณควรปฏิบัติตามแนวทางปฏิบัติอะไรบ้าง?
ต่อไปนี้คือแนวทางปฏิบัติที่ดีที่สุดที่ฉันแนะนำ:
– รวมเฉพาะ URL ตามรูปแบบบัญญัติ ในแผนผังไซต์ของคุณ
– ขนาดแผนผังเว็บไซต์สูงสุดควรเป็น 50,000 URL คุณสามารถแยกออกเป็นแผนผังเว็บไซต์ขนาดเล็กได้หากคุณมี URL มากกว่า
– อย่ารวมรหัสเซสชัน จาก URL ของคุณในแผนผังเว็บไซต์ ด้วยวิธีนี้ คุณสามารถลดการรวบรวมข้อมูลซ้ำของ URL ที่ระบุ
– ใช้ URL ที่สม่ำเสมอและสมบูรณ์ – รวม URL แบบสัมบูรณ์ แทนที่จะเป็น URL แบบสัมพัทธ์
ตามที่ฉันได้กล่าวไปแล้ว ตรวจสอบให้แน่ใจว่าแผนผังไซต์ของคุณมีเฉพาะ URL ที่มีค่าเท่านั้น คุณสามารถดำเนินการรวบรวมข้อมูลเว็บไซต์อย่างเต็มรูปแบบเพื่อตรวจสอบว่า URL ที่พบในการรวบรวมข้อมูลหายไปจากแผนผังเว็บไซต์หรือไม่
นี่เป็นเพียงส่วนเล็กสุดของภูเขาน้ำแข็งเมื่อพูดถึงการเพิ่มประสิทธิภาพแผนผังไซต์ของคุณ – สำหรับคำแนะนำเพิ่มเติม โปรด อ่านคำแนะนำขั้นสูงสุดของเราเกี่ยวกับแผนผังไซต์ XML
ห่อ
แผนผังเว็บไซต์มีค่าสำหรับทุกเว็บไซต์
ดังที่คุณเห็นจากตัวอย่างเว็บไซต์ที่ฉันแสดงรายการ เว็บไซต์ยอดนิยมหลายแห่งไม่มีแผนผังเว็บไซต์ที่ปรับให้เหมาะสม ซึ่งต้องเสียค่าใช้จ่าย – ความครอบคลุมของดัชนีได้รับผลกระทบอย่างมาก
นอกจากนี้ โปรดทราบว่า ข้อผิดพลาด SEO ในแผนผังเว็บไซต์อาจส่งผลเสียต่องบประมาณการรวบรวมข้อมูล ซึ่งเป็นสิ่งสำคัญหากคุณมีเว็บไซต์ขนาดกลางหรือขนาดใหญ่
ฉันหวังว่าตอนนี้คุณรู้แล้วว่าควรหลีกเลี่ยงข้อผิดพลาดใด และคุณกำลังจะสร้างแผนผังไซต์ที่ช่วยให้ Google รวบรวมข้อมูลไซต์ของคุณได้อย่างมีประสิทธิภาพมากขึ้น ซึ่งจะนำไปสู่ความครอบคลุมของดัชนีที่ดีขึ้น
