5 ข้อผิดพลาดที่ควรหลีกเลี่ยงในแผนผังเว็บไซต์

เผยแพร่แล้ว: 2022-03-15

เราได้สร้างเครื่องมือที่ช่วยให้เราตรวจสอบจำนวนหน้าในเว็บไซต์หนึ่งๆ ที่ได้รับการจัดทำดัชนีใน Google

จนถึงตอนนี้ เราได้ตรวจสอบเว็บไซต์หลายร้อยแห่ง และเครื่องมือนี้ช่วยเราวิเคราะห์ปัญหา SEO ที่ลูกค้าของเรากำลังเผชิญอยู่ เช่น เว็บไซต์ที่เชื่อมต่อกับงบประมาณการรวบรวมข้อมูลและการจัดทำดัชนี

เรามักพบความผิดปกติของข้อมูลเมื่อตรวจสอบปัญหาเหล่านี้และพบ เว็บไซต์จำนวนมากที่มีข้อผิดพลาดร้ายแรงในแผนผังเว็บไซต์

สิ่งนี้จะส่งผลต่อเว็บไซต์ของคุณอย่างไร

หากแผนผังไซต์ของคุณไม่ได้รับการติดตั้งอย่างถูกต้อง Googlebot สามารถใช้เวลามากในการรวบรวมข้อมูล URL ที่มีคุณภาพต่ำ ซึ่งเป็นการสิ้นเปลืองงบประมาณในการรวบรวมข้อมูล ด้วยเหตุนี้ URL ที่มีคุณค่าจำนวนมากในเว็บไซต์ของคุณอาจไม่ได้รับการจัดทำดัชนีใน Google เนื่องจากจะมีทรัพยากรไม่เพียงพอที่จะรวบรวมข้อมูล

เว็บไซต์ยอดนิยมทำผิดพลาดอะไรบ้างในแผนผังเว็บไซต์ และคุณจะหลีกเลี่ยงได้อย่างไรเพื่อให้มั่นใจว่า Google จะไม่เสียงบประมาณในการรวบรวมข้อมูลไปกับเนื้อหาที่ไม่เกี่ยวข้อง

มาขุดกันเถอะ

เนื้อหา ซ่อน
1 งบประมาณการรวบรวมข้อมูลคืออะไร?
2 แผนผังเว็บไซต์มีความสำคัญต่องบประมาณการรวบรวมข้อมูลของคุณอย่างไร
3 ข้อผิดพลาดใดที่คุณควรหลีกเลี่ยงในแผนผังเว็บไซต์
3.1 การส่ง URL ที่มีรูปแบบไม่ถูกต้อง
3.1.1 Whisky.de
3.2 การส่ง URL เนื้อหาแบบบาง
3.2.1 แอนเทเลอร์
3.3 การข้าม URL ที่มีค่า
3.3.1 GoodReads
3.4 การใช้พารามิเตอร์ <lastmod> มากเกินไป
3.4.1 เอวอน
3.5 การลิงก์ไปยังสภาพแวดล้อมการแสดงละครของคุณภายในแผนผังเว็บไซต์
3.5.1 Acehardware.com
4 แนวทางปฏิบัติที่ดีที่สุดที่ควรปฏิบัติตามในแผนผังเว็บไซต์
5 บทสรุป

งบประมาณการรวบรวมข้อมูลคืออะไร?

อันดับแรก ให้ฉันอธิบายว่า งบประมาณการรวบรวมข้อมูล คืออะไรและมีความเกี่ยวข้องอย่างไรกับการจัดทำดัชนีเว็บไซต์

Google สามารถรวบรวมข้อมูลเนื้อหาจำนวนมากได้ แต่ทรัพยากรนั้นไม่สิ้นสุด ดังนั้นจึงต้องตัดสินใจเลือกทรัพยากรที่มีอยู่

นั่นคือเหตุผลที่ Googlebot กำหนดงบประมาณการรวบรวมข้อมูลสำหรับเว็บไซต์ทั้งหมด ซึ่งเป็นจำนวน URL ที่สามารถทำได้และต้องการรวบรวมข้อมูล

งบประมาณการรวบรวมข้อมูลของไซต์ขึ้นอยู่กับ สองเมตริก :

  • ขีดจำกัดความสามารถในการรวบรวมข้อมูล – คำนวณเพื่อรวบรวมข้อมูลเนื้อหาที่สำคัญทั้งหมดบนเว็บไซต์โดยไม่ทำให้เซิร์ฟเวอร์เกินขีดจำกัด – และ
  • ความต้องการรวบรวมข้อมูล – พิจารณาจากขนาด ความนิยม และความถี่ในการอัปเดตของเว็บไซต์

หากไซต์ทำงานช้าลงหรือตอบสนองโดยมีข้อผิดพลาดของเซิร์ฟเวอร์ ขีดจำกัดจะลดลงและ Googlebot จะรวบรวมข้อมูลน้อยลง
ที่มา: เอกสารของ Google

เนื่องจากความสามารถที่จำกัดของ Googlebot คุณควรวางแผนว่า URL ใดที่ Googlebot จะรวบรวมข้อมูลบนเว็บไซต์ของคุณ

กุญแจสำคัญในการปรับ URL ที่จะรวบรวมข้อมูลมีอธิบายไว้ในเอกสารของ Google:

จัดการรายการ URL ของคุณ: ใช้เครื่องมือที่เหมาะสมเพื่อบอก Google ว่าหน้าใดที่จะรวบรวมข้อมูลและหน้าใดที่ไม่ควรรวบรวมข้อมูล หาก Google ใช้เวลามากเกินไปในการรวบรวมข้อมูล URL ที่ไม่เหมาะสมกับดัชนี Googlebot อาจตัดสินใจว่าไม่คุ้มที่จะเสียเวลาดูส่วนอื่นๆ ของเว็บไซต์ของคุณ
ที่มา: เอกสารของ Google

เพื่อสรุป – นี่คือสิ่งที่เรารู้จนถึงตอนนี้:

  • หากเว็บไซต์ของคุณช้า Google อาจรวบรวมข้อมูล URL น้อยลง ดังนั้น URL ที่น้อยลงจะหาทางเข้าสู่ดัชนีของ Google
  • หาก Google สามารถค้นพบ URL ที่มีคุณภาพต่ำจำนวนมากเมื่อรวบรวมข้อมูลไซต์ของคุณ Google อาจตัดสินว่าคุณภาพโดยรวมของไซต์ของคุณต่ำ

นี่เป็นข้อปฏิบัติที่สำคัญ:

ด้วย URL ที่มีคุณภาพต่ำจำนวนมากสำหรับ Google ในการรวบรวมข้อมูล Googlebot อาจเสียเวลามากมายในการรวบรวมข้อมูลและอาจไม่สามารถรวบรวมข้อมูล URL ที่มีคุณภาพสูงจำนวนมากบนเว็บไซต์ของคุณได้

ซึ่งจะมีน้ำหนักมากที่สุดสำหรับเว็บไซต์ขนาดใหญ่หรือมีการเปลี่ยนแปลงอย่างรวดเร็ว เนื่องจากต้องมีการรวบรวมข้อมูลบ่อยครั้งและครอบคลุมเพื่อดึงดูดการเข้าชม

แผนผังเว็บไซต์มีความสำคัญต่องบประมาณการรวบรวมข้อมูลของคุณอย่างไร

ตามที่เราได้อธิบายไป การเพิ่มประสิทธิภาพงบประมาณการรวบรวมข้อมูลเป็นขั้นตอนที่สำคัญอย่างยิ่งในการจัดทำดัชนีเว็บไซต์ของคุณ

วิธีหนึ่งในการ จัดการพื้นที่โฆษณา URL ของคุณ คือ การสร้างและบำรุงรักษาแผนผังเว็บไซต์ที่ปรับให้เหมาะสมที่สุด  

แผนผังเว็บไซต์ คือไฟล์ที่คุณให้ข้อมูลเกี่ยวกับหน้า วิดีโอ และไฟล์อื่นๆ บนไซต์ของคุณ และความสัมพันธ์ระหว่างพวกเขา […] แผนผังเว็บไซต์จะบอก Google ว่าหน้าและไฟล์ใดที่คุณคิดว่ามีความสำคัญในเว็บไซต์ของคุณ และยังให้ข้อมูลที่มีค่าเกี่ยวกับไฟล์เหล่านี้อีกด้วย ตัวอย่างเช่น เวลาที่อัปเดตหน้าล่าสุดและเวอร์ชันภาษาอื่นของหน้า
ที่มา: เอกสารของ Google

อย่างไรก็ตาม เว็บไซต์จำนวนมากล้มเหลวในการสร้างแผนผังเว็บไซต์ที่ปรับให้เหมาะสมที่สุด โชคดีที่เราสามารถเรียนรู้จากความผิดพลาดของพวกเขาได้

คุณควรหลีกเลี่ยงข้อผิดพลาดใดในแผนผังเว็บไซต์

ฉันวิเคราะห์ ไซต์ยอดนิยมหลายแห่ง และพบว่าไซต์จำนวนมากทำผิดพลาดในแผนผังไซต์ซึ่งส่งผลเสียต่องบประมาณการรวบรวมข้อมูล ซึ่งอาจนำไปสู่ปัญหากับความครอบคลุมของดัชนี

นี่คือรายละเอียดข้อผิดพลาดที่ควรหลีกเลี่ยงเมื่อสร้างแผนผังเว็บไซต์

  1. การส่ง URL ที่มีรูปแบบไม่ถูกต้อง

ข้อผิดพลาดประการหนึ่งที่ฉันค้นพบเกี่ยวข้อง กับโครงสร้างของ URL ในแผนผังเว็บไซต์  

ลองวิเคราะห์โดยดูตัวอย่างเฉพาะ

Whisky.de

เมื่อฉันเห็นสถิติที่รวบรวมโดยซอฟต์แวร์ของเรา ฉันรู้สึกทึ่ง: พบว่า 0% ของหน้าของ whisky.de ที่ส่งในแผนผังไซต์ได้รับการจัดทำดัชนีใน Google

ฉันรู้ว่าสิ่งนี้ไม่เป็นความจริง ฉันจึงตรวจสอบข้อมูลเพิ่มเติม

URL ส่วนใหญ่ใน แผนผังเว็บไซต์ของ whisky.de ดูเหมือนถูกต้อง:

  • พวกเขาเป็นที่ยอมรับ
  • พวกเขาไม่ถูกบล็อกโดยเมตาแท็ก noindex robots
  • พวกเขาไม่ถูกบล็อกโดยคำสั่ง disallow ใน robots.txt
  • พวกเขาตอบกลับด้วยรหัสสถานะ 200

แต่แล้วฉันก็สังเกตเห็นว่า URL ทั้งหมดมีเครื่องหมายทับสองครั้งตามโดเมนระดับบนสุด – ดูตัวอย่างนี้:

  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaesstern.html
  • https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
  • https://www.whisky.de//presse/pressespiegel/playboy.html

เครื่องหมายทับคู่ดูเหมือนจะเป็นข้อผิดพลาดทางโปรแกรมที่ชัดเจนขณะสร้างแผนผังเว็บไซต์และอีกอย่างที่แก้ไขได้ง่าย

อย่างไรก็ตาม หน้าที่รวมอยู่ในแผนผังเว็บไซต์มีแท็กตามรูปแบบบัญญัติที่ชี้ไปยัง URL ที่เกี่ยวข้อง ซึ่งเป็นเวอร์ชันที่ถูกต้องโดยใช้เครื่องหมายทับเดียว

ด้วยเหตุนี้ จึง มีความเป็นไปได้สูงที่ Google จะเข้าชม URL มากเป็นสองเท่าตามที่ตั้งใจไว้: URL ที่มีเครื่องหมายทับเดียวและเครื่องหมายทับคู่

Google มีกลไกในการระบุรูปแบบที่ผิดพลาดใน URL และในทางเทคนิคแล้ว เป็นไปได้ที่ Google ตรวจพบข้อผิดพลาดนั้น ดังนั้นจึงอาจรวบรวมข้อมูล whisky.de ตามลำดับและจัดทำดัชนี URL ที่มีโครงสร้างอย่างถูกต้อง แต่ไม่มีทางที่เราจะตรวจสอบได้หากไม่มีการเข้าถึงบัญชี Google Search Console หรือบันทึกเซิร์ฟเวอร์ของเว็บไซต์

ในทางปฏิบัติ คุณไม่ควรใช้อัลกอริธึมของ Google ในการแก้ไขข้อผิดพลาด แนวทางปฏิบัติเช่นเดียวกับที่ฉันอธิบายอาจทำให้งบประมาณการรวบรวมข้อมูลของคุณตึงเครียด และทำให้หน้าเว็บของคุณไม่อยู่ในดัชนีของ Google

การส่ง URL เนื้อหาแบบบาง

มีเว็บไซต์จำนวนมากที่ มีหน้าเนื้อหาบางในแผนผังเว็บไซต์

ผมขอแสดงให้คุณเห็นตัวอย่าง

แอนเทเลอร์

ฉันค้นพบข้อผิดพลาดนี้ใน AnnTaylor.com ร้านค้าชั้นนำที่มีเสื้อผ้าผู้หญิง

ฉันต้องการตรวจสอบว่ามีหมวดหมู่ผลิตภัณฑ์กี่ประเภทที่ได้รับการจัดทำดัชนีใน Google ดังนั้นฉันจึงตรวจสอบ แผนผังไซต์สำหรับหน้าหมวดหมู่โดยเฉพาะ

การตรวจสอบเบื้องต้นพบว่ามีเพียง 46% ของหน้าหมวดหมู่ที่ได้รับการจัดทำดัชนีใน Google

ดังนั้นฉันจึงตรวจสอบรายละเอียดเพิ่มเติมและพบว่าหน้าหมวดหมู่ส่วนใหญ่เป็น 404 แบบอ่อน

โดยเฉพาะ หน้าเหล่านี้แสดงข้อความต่อไปนี้:

antaylor ผลิตภัณฑ์ไม่มีผลลัพธ์

ไม่แปลกใจเลยที่ Google ไม่ต้องการจัดทำดัชนี!

ขั้นตอนต่อไปคือการ แยก soft 404 ออกจากตัวอย่างของฉัน เพื่อจุดประสงค์นั้น ฉันจึงตรวจสอบสถานะการจัดทำดัชนีของแผนผังเว็บไซต์เดียวกัน แต่ใช้ทริกเกอร์ที่ยกเว้นหน้าเว็บที่มีวลี "เราค้นหาอย่างมีสไตล์และไม่มีโชค" ดังตัวอย่างในภาพด้านบน

ปรากฎว่าหลังจากยกเว้น soft 404 URLs มากถึง 82% ของหน้าในแผนผังเว็บไซต์หมวดหมู่ของพวกเขาได้รับการจัดทำดัชนี  

ถึงกระนั้น 18% ของหน้าหมวดหมู่ไม่ได้รับการจัดทำดัชนีใน Google – นั่นคือสิ่งที่ SEO ของพวกเขาควรเน้นที่การตรวจสอบ

สถานการณ์ของ AnnTaylor นั้นร้ายแรงด้วยเหตุผลดังต่อไปนี้:

  • ประการแรก Google กำลังสูญเสียงบประมาณในการรวบรวมข้อมูลในการรวบรวมข้อมูลเนื้อหาบางส่วน
  • นอกจากนี้ ไม่ใช่เรื่องลึกลับที่ Google ตัดสินคุณภาพในสามระดับ: หน้า ส่วน และทั่วทั้งไซต์ Google อาจตัดสินว่าหน้าหมวดหมู่โดยทั่วไปมีคุณภาพต่ำ และหน้าหมวดหมู่ทั้งหมดอาจถูกยกเลิกการจัดทำ ดัชนี ในอดีต มันเกิดขึ้นกับเว็บไซต์อย่าง Giphy, Instagram หรือ Pinterest ตามที่ฉันอธิบายไว้ในบทความของฉัน หวังว่ามันจะไม่เกิดขึ้นกับแอนเทเลอร์

ข้าม URL ที่มีค่า

ตามที่ได้กล่าวไปแล้วแผนผังเว็บไซต์ช่วยให้ Google เข้าใจเว็บไซต์ของคุณดีขึ้นและรวบรวมข้อมูลได้อย่างชาญฉลาดยิ่งขึ้น

อย่างไรก็ตาม ฉันสังเกตเห็นว่า เว็บไซต์จำนวนมากไม่ได้รวม URL ที่มีค่าที่สุดในแผนผังเว็บไซต์

นี่คือตัวอย่างหนึ่ง

GoodReads

ฉันตรวจสอบตัวอย่างทั่วไป (นำมาจาก URL ทั้งหมดจาก แผนผังเว็บไซต์ ) สำหรับ GoodReads และพบว่ามี เพียง 35% เท่านั้นที่ได้รับการจัดทำดัชนี

ฉันประหลาดใจมากเพราะรู้ว่าเป็นเว็บไซต์คุณภาพสูง ฉันรู้ว่าฉันไม่ใช่คนเดียวที่เข้าชม GoodReads เพื่ออ่านบทวิจารณ์และเรียนรู้ว่าหนังสือเล่มใดควรค่าแก่การอ่าน

จากนั้น ฉันดูตัวอย่างที่เราตรวจสอบแล้วไม่มี URL ที่มีหนังสือรวมอยู่ด้วย ดังนั้นฉันจึงตัดสินใจดาวน์โหลดแผนผังเว็บไซต์ทั้งหมด

ผลลัพธ์: ไม่มี URL ที่มีหนังสือในแผนผังเว็บไซต์  

ทำไมมันเป็นสัญญาณที่ไม่ดี?

มีความเสี่ยงที่ Google จะจัดลำดับความสำคัญของ URL ที่พบในแผนผังเว็บไซต์และข้ามการเยี่ยมชมหน้าผลิตภัณฑ์

ข้อจำกัดความรับผิดชอบ: GoodReads ไม่ใช่ลูกค้าของเรา ดังนั้น ในทางเทคนิคแล้ว เป็นไปได้ที่พวกเขาส่งแผนผังเว็บไซต์ส่วนตัวไปยัง Google Search Console

ใช้พารามิเตอร์ <lastmod> มากเกินไป

พารามิเตอร์ตัวหนึ่งที่คุณสามารถรวมไว้ในไฟล์แผนผังเว็บไซต์ได้คือ <lastmod> ซึ่งระบุเวลาล่าสุดที่หน้าเว็บได้รับการอัปเดต ด้วยวิธีนี้ Google สามารถเลือก URL ที่เปลี่ยนแปลงไปเมื่อเร็วๆ นี้ได้อย่างง่ายดาย

อย่างไรก็ตาม บางเว็บไซต์ใช้เทคนิคนี้มากเกินไป และการทำเช่นนี้อาจมีผลเสียเพราะดังที่เราอ่านใน หลักเกณฑ์ของ Google Google ใช้ค่า <lastmod> หากค่าสม่ำเสมอและตรวจสอบได้ (เช่น โดยเปรียบเทียบกับการแก้ไขหน้าเว็บครั้งล่าสุด) ถูกต้อง”

มาดูตัวอย่างเว็บไซต์ที่ใช้พารามิเตอร์ <lastmod> มากเกินไป

เอวอน

ฉันดู แผนผังเว็บไซต์ผลิตภัณฑ์ของ Avon และ URL ที่แสดงทั้งหมดมีพารามิเตอร์ <lastmod> เหมือนกัน – วันปัจจุบัน:

แผนผังเว็บไซต์แสดงวันที่ <lastmod> เป็นวันปัจจุบัน

ถือว่าปลอดภัยที่จะถือว่า URL ของ Avon ไม่ได้เปลี่ยนแปลงทุกวัน ดังนั้น Google จึงไม่เต็มใจที่จะสร้างดัชนีหน้าเว็บ

การลิงก์ไปยังสภาพแวดล้อมการแสดงละครของคุณภายในแผนผังเว็บไซต์

เป็นเรื่องปกติที่ Google จะสร้างดัชนี URL การแสดงละคร  

มักจะเป็นเรื่องลึกลับที่ Google พบลิงก์ไปยังหน้าดังกล่าว แต่คำอธิบายทั่วไปก็คือ URL เหล่านี้เชื่อมโยงโดยตรงจากแผนผังเว็บไซต์

Acehardware.com

โปรดทราบว่า acehardware.com ได้อัปเดตแผนผังเว็บไซต์และแก้ไขข้อผิดพลาดด้านล่างแล้ว

นี่คือตัวอย่างที่ฉันตรวจสอบในตอนแรก

อย่างที่คุณเห็น ฉันพบว่าพวกเขากำลังเชื่อมโยงไปยังไซต์การแสดงละครจาก แผนผังไซต์ของพวกเขา

ลิงก์ไปยังไซต์การแสดงละครภายในแผนผังไซต์

เหตุใดการรวมสภาพแวดล้อมการแสดงละครของคุณในแผนผังเว็บไซต์จึงไม่ดี

  1. Google รวบรวมข้อมูล URL ที่ไม่จำเป็น
  2. หากมีการทำดัชนี URL การแสดงละคร จะทำให้ผู้ใช้สับสนในการค้นหาข้อมูลเฉพาะและสะดุดกับพวกเขาในผลการค้นหา

แนวทางปฏิบัติที่ดีที่สุดที่ควรปฏิบัติตามในแผนผังเว็บไซต์

คุณได้อ่านภาพรวมของฉันเกี่ยวกับสิ่งที่ควรหลีกเลี่ยงเมื่อสร้างและจัดการแผนผังเว็บไซต์สำหรับเว็บไซต์

ตอนนี้ คุณควรปฏิบัติตามแนวทางปฏิบัติอะไรบ้าง?

ต่อไปนี้คือแนวทางปฏิบัติที่ดีที่สุดที่ฉันแนะนำ:

– รวมเฉพาะ URL ตามรูปแบบบัญญัติ ในแผนผังไซต์ของคุณ

ขนาดแผนผังเว็บไซต์สูงสุดควรเป็น 50,000 URL คุณสามารถแยกออกเป็นแผนผังเว็บไซต์ขนาดเล็กได้หากคุณมี URL มากกว่า

อย่ารวมรหัสเซสชัน จาก URL ของคุณในแผนผังเว็บไซต์ ด้วยวิธีนี้ คุณสามารถลดการรวบรวมข้อมูลซ้ำของ URL ที่ระบุ

– ใช้ URL ที่สม่ำเสมอและสมบูรณ์ – รวม URL แบบสัมบูรณ์ แทนที่จะเป็น URL แบบสัมพัทธ์

ตามที่ฉันได้กล่าวไปแล้ว ตรวจสอบให้แน่ใจว่าแผนผังไซต์ของคุณมีเฉพาะ URL ที่มีค่าเท่านั้น คุณสามารถดำเนินการรวบรวมข้อมูลเว็บไซต์อย่างเต็มรูปแบบเพื่อตรวจสอบว่า URL ที่พบในการรวบรวมข้อมูลหายไปจากแผนผังเว็บไซต์หรือไม่

นี่เป็นเพียงส่วนเล็กสุดของภูเขาน้ำแข็งเมื่อพูดถึงการเพิ่มประสิทธิภาพแผนผังไซต์ของคุณ – สำหรับคำแนะนำเพิ่มเติม โปรด อ่านคำแนะนำขั้นสูงสุดของเราเกี่ยวกับแผนผังไซต์ XML  

ห่อ

แผนผังเว็บไซต์มีค่าสำหรับทุกเว็บไซต์

ดังที่คุณเห็นจากตัวอย่างเว็บไซต์ที่ฉันแสดงรายการ เว็บไซต์ยอดนิยมหลายแห่งไม่มีแผนผังเว็บไซต์ที่ปรับให้เหมาะสม ซึ่งต้องเสียค่าใช้จ่าย – ความครอบคลุมของดัชนีได้รับผลกระทบอย่างมาก

นอกจากนี้ โปรดทราบว่า ข้อผิดพลาด SEO ในแผนผังเว็บไซต์อาจส่งผลเสียต่องบประมาณการรวบรวมข้อมูล ซึ่งเป็นสิ่งสำคัญหากคุณมีเว็บไซต์ขนาดกลางหรือขนาดใหญ่

ฉันหวังว่าตอนนี้คุณรู้แล้วว่าควรหลีกเลี่ยงข้อผิดพลาดใด และคุณกำลังจะสร้างแผนผังไซต์ที่ช่วยให้ Google รวบรวมข้อมูลไซต์ของคุณได้อย่างมีประสิทธิภาพมากขึ้น ซึ่งจะนำไปสู่ความครอบคลุมของดัชนีที่ดีขึ้น