SEO Office Hours – 24 ธันวาคม 2021
เผยแพร่แล้ว: 2021-12-29นี่คือบทสรุปของคำถามและคำตอบที่น่าสนใจที่สุดจาก Google SEO Office Hours กับ John Mueller ในวันที่ 24 ธันวาคม 2021
เนื้อหาเพย์วอลล์และการปิดบัง
00:49 “เกี่ยวกับข้อมูลเพย์วอลล์ที่มีเนื้อหาเพย์วอลล์ […] เรามีเว็บไซต์ เราทำบทความมากมาย และทุกอย่างก็สามารถเข้าถึงได้โดย Google และเราต้องการเพิ่มเพย์วอลล์ที่นั่น แต่ […] เท่านั้น […] แสดงเนื้อหาเพย์วอลล์ต่อ Google ด้วยตัวอย่างข้อมูลที่มีโครงสร้างที่คุณมี ถือเป็นการปิดบังหรือไม่?
ดังนั้นฉันจึงตรวจสอบว่าเป็น Googlebot หรือไม่ และมีเพียง [จากนั้น] เท่านั้นที่แสดง […] ข้อมูลที่มีโครงสร้าง – […] ข้อมูลเพย์วอลล์ แต่สำหรับผู้ใช้ทั่วไป […] ฉันไม่แสดงข้อมูลที่มีโครงสร้าง ไม่เป็นไรใช่ไหม”
จอห์นไม่เห็นปัญหากับวิธีแก้ปัญหานี้: “ไม่เป็นไร ในทางเทคนิคแล้ว ยัง ถือว่าเป็นการปิดบัง เพราะคุณกำลังแสดงบางอย่างที่แตกต่างออกไป แต่จากนโยบายของเรา นั่นเป็นสิ่งที่ยอมรับได้ เนื่องจากผู้ใช้จะ […] หากพวกเขาผ่านเพย์วอลล์ […] ดูเนื้อหาที่คุณกำลังแสดง Googlebot”
ปัญหาการจัดทำดัชนีที่อาจเกิดขึ้น
03:38 “ฉันเผยแพร่เนื้อหาคุณภาพสูง ส่งแผนผังเว็บไซต์ และบางครั้งก็ขอจัดทำดัชนีจาก Google Search Console แต่ฉันยังคงมีปัญหาในการจัดทำดัชนีเนื้อหาใหม่ หรือมีการจัดทำดัชนี [ด้วยความล่าช้า] […] มันเป็นข้อบกพร่องจาก Google หรือเป็นการอัปเดตอัลกอริทึมใหม่”
จอห์นตอบว่า: “เราไม่มีข้อบกพร่องในเรื่องนั้น […] เราไม่ได้จัดทำดัชนีเนื้อหาทั้งหมด และบางเว็บไซต์สร้างเนื้อหาจำนวนมาก และถ้าเราไม่สร้างดัชนีทุกอย่าง […] ก็ไม่เป็นไร แต่บางทีคุณอาจต้องการให้ทุกอย่างจัดทำดัชนี และเราไม่สามารถทำทุกอย่างได้ตลอดเวลา
ส่วนที่ยาก […] คือ ในอดีต เว็บไซต์จำนวนมาก […] ในทางเทคนิคไม่ค่อยดีนัก มีความชัดเจนขึ้นเล็กน้อยว่าเนื้อหาประเภทใดไม่ได้รับการจัดทำดัชนี ทุกวันนี้ เว็บไซต์ในทางเทคนิคใช้ได้ และมัน […] เหมือนแถบคุณภาพสูงขึ้นเล็กน้อย […] ทุกคนสามารถเผยแพร่บางสิ่งที่ในทางทฤษฎี สามารถสร้างดัชนีได้ แต่ […] เราต้องตรวจสอบให้แน่ใจว่าเรากำลังจัดทำดัชนีสิ่งที่ถูกต้องซึ่งเป็นประโยชน์และเกี่ยวข้องกับผู้ใช้จริงๆ ดังนั้นบางครั้งเราต้องปล่อยให้บางสิ่งไม่มีการทำดัชนี”
อัปเดตรีวิวผลิตภัณฑ์ – ภาษาและประเทศที่ได้รับผลกระทบ
14:01 “เกี่ยวกับการอัปเดตรีวิวผลิตภัณฑ์ […] แม้ว่าการอัปเดตจะมีผลกับเว็บไซต์ที่พูดภาษาอังกฤษเท่านั้น แต่ฉันก็เห็นการเคลื่อนไหวบางอย่างใน German Search เช่นกัน ฉันสงสัยว่าจะมีผลกระทบต่อเว็บไซต์ในภาษาอื่น ๆ จากการอัปเดตบทวิจารณ์ผลิตภัณฑ์นี้หรือประเภทใด […] หรือไม่”
ดังที่จอห์นกล่าวไว้ว่า “ สมมติฐานของฉันคือสิ่งนี้เป็นไปทั่วโลกและในทุกภาษา […] แต่โดยปกติ เราพยายามผลักดันให้ทีมวิศวกรตัดสินใจในเรื่องนั้น เพื่อที่เราจะสามารถจัดทำเป็นเอกสารได้อย่างถูกต้องในบล็อกโพสต์ ฉันไม่รู้ว่ามันเกิดขึ้นกับการอัปเดตรีวิวผลิตภัณฑ์หรือเปล่า […] ดูเหมือนว่าสิ่งที่เราสามารถทำได้ในหลายภาษาและจะไม่ผูกติดอยู่กับภาษาอังกฤษเพียงอย่างเดียว และแม้ว่าในตอนแรกจะเป็นภาษาอังกฤษ แต่ก็รู้สึกเหมือนเป็นสิ่งที่มีความเกี่ยวข้องกันทั่วทั้งกระดาน และเราควรพยายามหาวิธีที่จะนำไปใช้กับภาษาอื่นๆ เมื่อเวลาผ่านไปเช่นกัน ดังนั้นฉันจึงไม่แปลกใจเป็นพิเศษที่คุณเห็นการเปลี่ยนแปลงในเยอรมนี […]”
หลังจากที่รู้ว่าบล็อกโพสต์ของ Google กล่าวถึงเฉพาะการอัปเดตที่ส่งผลต่อเว็บไซต์ภาษาอังกฤษเท่านั้น John ได้อธิบายเพิ่มเติมว่า:
“ด้วยการอัปเดตประเภทนี้ เราพยายามเริ่มต้นด้วยภาษาเดียวหรือหนึ่งสถานที่ และดูสิ่งที่เราต้องปรับแต่ง จากนั้นจึงขยายจากที่นั่น […] สำหรับบางสิ่งที่เกี่ยวข้องกับเนื้อหามากกว่า มักจะใช้เวลานานกว่าเล็กน้อยในการขยายไปยังภาษาต่างๆ […]”
การแปลหน้าเว็บสำหรับประเทศที่พูดภาษาอังกฤษ
17:53 “คุณรู้วิธีอื่นใดในการแปลชุดหน้าเดียวกันสำหรับประเทศที่พูดภาษาอังกฤษต่างกันหรือไม่? […] เรามีโดเมนย่อยหลายโดเมนที่มี .jo โดเมนระดับบนสุด เช่น อาจมาจากออสเตรเลีย โดเมนย่อยของนิวซีแลนด์ และเราได้ตั้งค่าประเทศในแบ็กเอนด์ JSA และใช้ hreflang ในระดับหน้าด้วย […] เราไม่สามารถหาวิธีอื่นที่จะช่วยให้เราแปลโดเมนย่อยเหล่านี้ได้ คุณมีวิธีที่ดีหรือวิธีที่เราสามารถปรับปรุงได้หรือไม่”
นี่คือวิธีที่ John กล่าวถึงหัวข้อนี้:
“ฉันคิดว่าคุณครอบคลุมคนหลัก นั่นคือการกำหนดเป้าหมายตามภูมิศาสตร์ใน Search Console และการตั้งค่า hreflang
การกำหนดเป้าหมายตามภูมิศาสตร์ ทำงานบน ไดเรกทอรีย่อยหรือระดับโดเมนย่อย ซึ่ง อยู่ในทุกหน้า
Hreflang เป็นแบบต่อหน้า หากคุณมีโฮมเพจสำหรับประเทศหนึ่งและหน้าผลิตภัณฑ์ที่แตกต่างกันสำหรับประเทศเดียวกัน หน้าเหล่านั้นจะต้องเชื่อมโยงข้ามกับ hreflang
อีกสิ่งหนึ่งที่ฉันพยายามแนะนำอยู่เสมอคือมีแผนสำรองบางอย่าง […] บางอย่างเช่น แบนเนอร์ที่ใช้ JavaScript ที่คุณสามารถแสดงได้เมื่อคุณรู้ว่าผู้ใช้อยู่ในไซต์ที่ไม่ถูกต้อง ตัวอย่างเช่น หากผู้ใช้จากออสเตรเลียลงเอยที่เพจจากอังกฤษ คุณสามารถแสดงแบนเนอร์ JavaScript ว่า 'เฮ้ เรามีหน้านี้ในเวอร์ชันออสเตรเลียที่นี่ คุณสามารถไปที่นั่นได้โดยตรง' ข้อดีของแบนเนอร์แบบ JavaScript คือคุณสามารถบล็อกด้วย robots.txt เพื่อไม่ให้แสดงจากมุมมองการจัดทำดัชนี และถ้าคุณไม่เปลี่ยนเส้นทางโดยอัตโนมัติ […] [เสิร์ชเอ็นจิ้น] จะสามารถประมวลผลทั้งสองเวอร์ชันได้อย่างอิสระ
หากหน้าเหล่านี้เหมือนกันโดยพื้นฐานแล้ว อาจเกิดขึ้นได้ว่าเราถือว่าหน้าใดหน้าหนึ่งเหล่านี้เป็นเวอร์ชันตามรูปแบบบัญญัติ ตัวอย่างเช่น หากคุณมีเพจสำหรับนิวซีแลนด์และออสเตรเลีย และเนื้อหาทั้งหมดเหมือนกัน สิ่งเดียวที่แตกต่างกันเล็กน้อยคือสกุลเงินบนหน้า จากนั้น […] เราจะพับหน้าเหล่านั้นเข้าด้วยกันและเลือกหนึ่งในนั้น บัญญัติ และใช้เป็นพื้นฐานสำหรับการค้นหา
หากคุณมี hreflang ในหน้าเหล่านั้น เราจะยังคงใช้ hreflang เพื่อแสดงเวอร์ชันที่ถูกต้องของ URL แต่เนื้อหาที่จัดทำดัชนีจะมาจากเวอร์ชัน Canonical และการรายงานทั้งหมดใน Search Console จะเป็นเวอร์ชัน Canonical นั่นทำให้บางครั้งยุ่งยากเล็กน้อย โดยเฉพาะอย่างยิ่งถ้าคุณมีเว็บไซต์ขนาดใหญ่ที่มี […] เนื้อหาเดียวกันสำหรับประเทศต่างๆ”
การเพิ่มเนื้อหาแบบไดนามิกให้กับเพจ
25:0 “เว็บไซต์ของฉันมีหน้าหลายล้านหน้า เช่น หมวดหมู่ หมวดหมู่ย่อย และผลิตภัณฑ์ อีคอมเมิร์ซ […] เราได้เพิ่มเนื้อหาแบบไดนามิก เนื่องจาก [ด้วย] หน้าเว็บหลายล้านหน้า […] [มัน] เป็นการยากที่จะเพิ่มเนื้อหาแยกต่างหากหรือ […] เนื้อหาที่ไม่ซ้ำกันในแต่ละหน้า เราได้เพิ่ม […] เนื้อหาตามเทมเพลตในหน้าหมวดหมู่ หน้าหมวดหมู่ย่อย และหน้าผลิตภัณฑ์ […] นั่นจะดีต่อประสิทธิภาพของเว็บไซต์ของเราหรือไม่ หรือเราควรอัพเดทเนื้อหาในแต่ละหน้า? […]”.
นี่คือวิธีที่ John ตอบกลับ:
“ การเพิ่มเนื้อหาที่เกี่ยวข้องลงในหน้าแบบไดนามิก […] นั้นสมเหตุสมผล เพราะ […] [มัน] เป็นเพียงแค่การค้นหาฐานข้อมูลและเพิ่มเนื้อหาตามนั้น […] มันขึ้นอยู่กับว่าคุณตั้งค่านั้นอย่างไร
สิ่งสำคัญที่ฉันจะหลีกเลี่ยงคือคุณประสบกับสถานการณ์ที่คุณเพิ่มเนื้อหาลงในหน้าเว็บโดยไม่ได้ตั้งใจ โดยหวังว่าหน้านี้จะมีอันดับที่ดีขึ้นสำหรับคำหลักที่คุณเพิ่มโดยไม่ได้ตั้งใจ […] เมื่อผู้ใช้ไปที่นั่น พวกเขาจะชอบ 'ทำไมคำหลักสุ่มเหล่านี้ในหน้านี้' […] การทำให้แน่ใจว่าคุณมีเนื้อหาที่ดีและมีความเกี่ยวข้องจริง ๆ สำหรับคำหลักเหล่านั้น นั่นคือสิ่งที่ฉันจะเน้น […]”
เมื่อถูกถามเพิ่มเติมว่าจำเป็นต้องเขียนเนื้อหาที่เกี่ยวข้องสำหรับแต่ละหน้าเพื่อให้ Google เห็นว่าหน้าเป็นการแสดงคุณค่าหรือไม่ John กล่าวว่า:
“ควรเป็นบางอย่างบนหน้าที่เกี่ยวข้อง และหากเป็นหน้าหมวดหมู่ ผลิตภัณฑ์ที่คุณระบุไว้มีความเกี่ยวข้อง […] และโดยปกติ คุณมีคำอธิบายของหมวดหมู่นั้น […] ไม่ใช่ว่าคุณต้องเขียนบทความ Wikipedia ที่ด้านล่างสุดเกี่ยวกับผลิตภัณฑ์ทั้งหมดและที่มาของผลิตภัณฑ์เหล่านี้ […] แต่ข้อมูลเล็กน้อยที่เกี่ยวข้องกับหน้านั้นก็สำคัญ”
การแสดงผลและการทำดัชนีไฟล์ JavaScript
28:28 “เว็บไซต์ของฉัน […] [ใช้] ทำปฏิกิริยากับการแสดงผลฝั่งไคลเอ็นต์ […] เมื่อเราปิด JavaScript และเบราว์เซอร์ หน้าของฉันจะว่างเปล่าโดยสิ้นเชิง นั่นอาจเป็นสาเหตุของอันดับที่ต่ำกว่าหรือประสิทธิภาพการทำงานของหน้าเว็บที่ไม่ดี?”

คำตอบของจอห์นคือ: “ ไม่ควรเป็นเช่นนั้น […] สำหรับการค้นหา เราทำการแสดงผล และเราประมวลผล JavaScript บนหน้าเว็บ หากมองเห็นได้ในเบราว์เซอร์ปกติ และคุณไม่ได้ทำอะไรที่แย่เป็นพิเศษ เราจะสามารถจัดทำดัชนีหน้าเว็บเหล่านั้นได้ตามปกติ คุณสามารถตรวจสอบอีกครั้งด้วย เครื่องมือตรวจสอบ URL ใน Search Console เพื่อดูว่าเนื้อหานั้นมองเห็นได้จริงหรือไม่เมื่อ Googlebot พยายามแสดงผลหน้าเว็บ และ หากเนื้อหานั้นมองเห็นได้ แสดงว่าคุณพร้อม แล้ว”
การจัดทำดัชนี URL ที่สร้างขึ้นจากการค้นหาภายในเว็บไซต์
30:11 “เราได้ เพิ่มช่องค้นหาในเว็บไซต์ของเรา แล้ว ดังนั้นผู้ใช้จึงเข้ามาที่เว็บไซต์ของเราและค้นหาที่นั่น และสร้าง URL ที่ไม่ซ้ำกันสำหรับการค้นหาทุกครั้ง URL เหล่านี้ควรสร้างดัชนีได้หรือไม่ ”
ดังที่จอห์นกล่าวว่า “ โดยปกติไม่ […] มีสองเหตุผลหลักสำหรับเรื่องนั้น
ในอีกด้านหนึ่ง เป็นเรื่องง่ายมากที่จะจบลงในสถานการณ์ที่คุณมี URL อีกล้าน URL ที่เป็นเพียงแค่การค้นหาที่แตกต่างกัน ซึ่งไม่ได้ให้คุณค่าใดๆ กับคุณเลย เราเรียกมันว่าพื้นที่อนันต์ […] นั่นคือสิ่งที่คุณต้องการหลีกเลี่ยง
อีกสิ่งหนึ่งที่คุณต้องการหลีกเลี่ยงคือ ผู้คนทำสิ่งที่เป็นสแปมในช่องค้นหาและพยายามจัดทำดัชนีสิ่งเหล่านั้น ซึ่งอาจเป็นสิ่งที่คล้ายกับการค้นหาหมายเลขโทรศัพท์ของพวกเขา และ […] ประเภทธุรกิจของพวกเขา […] ทันใดนั้น หน้าการค้นหาของเว็บไซต์ของคุณมีอันดับสำหรับธุรกิจประเภทนั้นและแสดงหมายเลขโทรศัพท์ของพวกเขา แม้ว่าคุณจะไม่มีเนื้อหาที่ตรงกับคำค้นหาเหล่านั้น […] พวกเขาทำเช่นนี้เพื่อพยายามให้ปรากฏในผลการค้นหา ฉันจะบล็อกหน้าค้นหาประเภทนี้ด้วย robots.txt ด้วยวิธีนี้ คุณจึงมั่นใจได้ว่าเราจะไม่สามารถจัดทำดัชนีเนื้อหาใดๆ ได้”
ไซต์ SEO ในชื่อ YMYL
31:55 “บริษัท SEO จะถูกจัดประเภทเป็นเว็บไซต์ Your Money หรือ Your Life หรือเกี่ยวข้องกับเว็บไซต์คำแนะนำทางการแพทย์และการเงินเท่านั้น”
ตามที่จอห์น "[…] ฉันไม่คิดว่าเว็บไซต์ SEO มีความสำคัญต่อชีวิตของผู้คน แน่นอน หากคุณทำงานให้กับบริษัท SEO คุณก็มีความเกี่ยวข้อง แต่ไม่ใช่ว่าตัวเว็บไซต์เองจะเป็นเว็บไซต์ประเภท Money หรือ Your Life […] ไม่ใช่ทุกเว็บไซต์ที่ขายสินค้าที่อยู่ในหมวดหมู่นี้
สิ่งที่ฉันอยากจะแนะนำที่นี่คือ แทนที่จะลองสุ่มสี่สุ่มห้าดูว่า 'เว็บไซต์ประเภทนี้อยู่ในหมวดหมู่เฉพาะนี้หรือไม่' […] อ่านว่าหมวดหมู่นี้มาจากไหน คือ หลักเกณฑ์ผู้ประเมินคุณภาพ และ ทำความเข้าใจเพิ่มเติมอีกเล็กน้อย สิ่งที่ Google พยายามทำเพื่อทำความเข้าใจเว็บไซต์ประเภทต่างๆ เหล่า นี้ […] นั่นจะทำให้คุณมีข้อมูลพื้นฐานเพิ่มเติมเล็กน้อยเกี่ยวกับสิ่งที่เกิดขึ้นจริง […]”
การใช้ข้อมูลที่มีโครงสร้างเบรดครัมบ์
39:56 “เมื่อพูดถึงข้อมูลที่มีโครงสร้างเบรดครัมบ์ จะต้องเหมือนกับเบรดครัมบ์ที่ผู้เยี่ยมชมจะเห็นบนหน้าเว็บทุกประการหรือไม่ บางครั้งฉันเห็นเบรดครัมบ์เวอร์ชันย่อบนหน้า ในขณะที่ข้อมูลที่มีโครงสร้างเป็นเส้นทางเบรดครัมบ์ที่สมบูรณ์ ทั้งสองตัวเลือกเป็นที่ยอมรับหรือไม่”
ดังที่จอห์นกล่าวว่า “ […] เราพยายามรับรู้ว่าข้อมูลที่มีโครงสร้างสามารถมองเห็นได้บนหน้าหรือไม่ และถ้าไม่ใช่ […] เราต้องหาว่า “ยังสมเหตุสมผลไหมที่จะแสดงสิ่งนี้ในผลการค้นหา? ”
หากคุณกำลังทำบางอย่างเช่นแสดงเวอร์ชันที่สั้นของเบรดครัมบ์บนหน้าเว็บ และเราไม่สามารถจับคู่สิ่งนั้นได้ มันอาจจะไม่ค่อยดีนัก หากเราเลือกมาร์กอัปของเบรดครัมบ์นั้นแล้วใช้สิ่งนั้น
หากคุณกำลังนำครัมบ์แต่ละรายการหรือ […] แต่ละรายการในรายการเบรดครัมบ์ และคุณแสดงเพียงบางส่วน แต่ไม่ใช่ทั้งหมด อาจเป็นเพราะเราเพิ่งหยิบมันขึ้นมา อาจเป็นเพราะเรายังรับส่วนที่เหลืออยู่เพราะเห็น […]
ไม่รับประกันว่าเราจะสามารถรับและใช้มาร์กอัปเบรดครัมบ์แบบเต็มที่คุณมีได้หากคุณไม่แสดงสิ่งนั้นบนหน้า และนั่นก็คล้ายกับข้อมูลที่มีโครงสร้างประเภทอื่นๆ
ฉันคิดว่าข้อยกเว้นหลัก […] คือ […] มาร์กอัปคำถามที่พบบ่อย ซึ่งคุณมีคำถามและคำตอบ โดยที่ […] ส่วนสำคัญคือคำถามนั้นมองเห็นได้จริง และคำตอบอาจเหมือนกับส่วนที่ยุบบน หน้า แต่ […] อย่างน้อยก็ต้องมองเห็นได้”
แปลแค่บางหน้าบนเว็บไซต์
44:00 “เราเปิดเว็บไซต์ที่มีหน้าดัชนีไม่เกิน 300 หน้าเป็นภาษาอังกฤษทั้งหมด เรากำลังมองหาการแปลประมาณครึ่งหนึ่งของหน้าเหล่านี้เป็นภาษาสเปน ซึ่งจะอยู่ในไดเรกทอรีย่อยในโดเมนเดียวกัน เช่น /ES และถูกแท็กเป็นเวอร์ชันภาษาอื่นของเนื้อหาภาษาอังกฤษ เป็นไปได้ไหมที่จะแปลเฉพาะเนื้อหาบางส่วนของหน้า หรือเราควรแปลทุกอย่างให้เหมือนกับเว็บไซต์ภาษาอังกฤษและมีโอกาสที่ดีที่สุดในการจัดอันดับในตำแหน่งอื่น ๆ ”
จอห์นกล่าวว่า: “ แค่แปลบางหน้าในเว็บไซต์ก็ทำได้ เราดูภาษาของหน้าทีละหน้า หากคุณมีบางหน้าเป็นภาษาสเปน เราจะดูที่หน้าภาษาสเปนเหล่านั้นเมื่อมีคนค้นหาเป็นภาษาสเปน ไม่ใช่กรณีที่เราจะพูดว่า: 'มีหน้าภาษาอังกฤษมากกว่าหน้าภาษาสเปนที่นี่ ดังนั้นเว็บไซต์ภาษาสเปนจึงมีความสำคัญน้อยกว่า' […] เหล่านี้เป็นหน้าภาษาสเปนและพวกเขาสามารถจัดอันดับได้ดีในภาษาสเปน […] สำหรับผู้ใช้ในบางครั้ง ควรมีเนื้อหาที่แปลให้ได้มากที่สุดเท่าที่จะเป็นไปได้ แต่โดยปกติ นี่คือสิ่งที่คุณปรับปรุงทีละน้อยเมื่อเวลาผ่านไป โดยที่ คุณเริ่มต้นด้วยหน้าบางหน้า คุณปรับให้เข้ากับท้องถิ่นได้ดี และเพิ่มหน้าอื่นๆ […]
หมายเหตุประกอบ hreflang เป็นแบบต่อหน้าเช่นกัน หากคุณมีบางหน้าเป็นภาษาอังกฤษและภาษาสเปน และคุณเชื่อมโยงหน้าเหล่านั้น ก็ถือว่าใช้ได้ หากคุณมีบางหน้าเป็นภาษาสเปน ก็ไม่เป็นไร คุณไม่จำเป็นต้องมี hreflang บางหน้าเป็นภาษาอังกฤษก็ใช้ได้ จากมุมมองดังกล่าว ดูเหมือนว่าจะเป็นวิธีที่สมเหตุสมผลในการเริ่มต้น”
รวบรวมข้อมูลงบประมาณและ URL ที่สร้างขึ้นโดยอัตโนมัติ
46:12 “เว็บไซต์ที่ฉันกำลังพูดถึงคือเว็บไซต์ WordPress มันสร้าง URL ที่ไม่ต้องการหลายรายการโดยอัตโนมัติ […] มีวิธีใดบ้างที่ฉันสามารถหยุดโปรแกรมรวบรวมข้อมูลเพื่อค้นหา URL เหล่านี้ ฉันรู้ว่าฉันสามารถ 'noindex' ได้ และนั่นไม่ใช่ URL ที่จัดทำดัชนีทั้งหมด แต่แล้วฉันก็เห็นมันใน Search Console ในส่วนที่ยกเว้น […] เป็นเว็บไซต์ข่าว เรามี URL นับพันรายการ […] มันจะส่งผลกระทบต่องบประมาณการรวบรวมข้อมูลหรือไม่”
จอห์นสอบถามเกี่ยวกับขนาดของเว็บไซต์และได้รับแจ้งว่ามี URL ระหว่าง 5,000 ถึง 10,000 URL
เมื่อพิจารณาถึงเรื่องนั้น จอห์นกล่าวว่า “ ผมจะไม่กังวลเรื่องงบประมาณในการรวบรวมข้อมูล […] เราสามารถรวบรวมข้อมูลหลาย ๆ หน้าได้ค่อนข้างเร็ว โดยปกติภายในไม่กี่วัน อีกอย่าง […] คือ 'noindex' คือเมตาแท็กในหน้า เราต้องรวบรวมข้อมูลหน้าเพื่อดูเมตาแท็ก ซึ่งหมายความว่าคุณไม่สามารถหลีกเลี่ยงไม่ให้เราตรวจสอบหน้า 'noindex' […] หากเราเห็นว่ามี 'noindex' บนหน้าเว็บ โดยปกติเราจะรวบรวมข้อมูลหน้าเหล่านั้นน้อยลงเมื่อเวลาผ่านไป เราจะยังคงตรวจสอบซ้ำเป็นระยะๆ แต่เราจะไม่ตรวจสอบมากเท่ากับหน้าปกติที่จัดทำดัชนีไว้เป็นอย่างอื่น อีกวิธีหนึ่งคือการใช้ robots.txt ด้วยไฟล์ robots.txt คุณสามารถบล็อกการรวบรวมข้อมูลของหน้าเหล่านั้นได้อย่างสมบูรณ์ ข้อเสียคือบางครั้ง URL สามารถจัดทำดัชนีในผลการค้นหาไม่ใช่เนื้อหาในหน้า […]
ยอห์นยังได้ยกตัวอย่างต่อไปนี้:
“หากคุณ […] มีเว็บไซต์ข่าวฟุตบอล และคุณมีบทความบางบทความที่ถูกบล็อกและบทความบางบทความที่อนุญาตให้รวบรวมข้อมูลได้ ถ้ามีใครค้นหาข่าวฟุตบอล พวกเขาจะพบเวอร์ชันที่จัดทำดัชนีได้ของหน้าเว็บของคุณและมัน ไม่สำคัญว่ามีหน้าอื่นที่ถูกบล็อกโดย robots.txt อย่างไรก็ตาม หากมีผู้ค้นหาเว็บไซต์สำหรับหน้าที่บล็อกเหล่านั้นอย่างชัดแจ้ง คุณก็จะสามารถเห็น URL เหล่านั้นในการค้นหา […] ในสถานการณ์เช่นคุณ […] ฉันจะไม่กังวลเรื่องงบประมาณการรวบรวมข้อมูล”
จอห์นกล่าวเสริมว่า: “ จากมุมมองที่ใช้งานได้จริง ทั้ง 'noindex' และ robots.txt จะเทียบเท่ากัน […] เนื้อหานี้อาจไม่ปรากฏในผลการค้นหา และเรายังคงต้องรวบรวมข้อมูลหากมี 'noindex' แต่ตัวเลขนั้นน้อยมากจนไม่สำคัญ เราอาจยังคงสร้างดัชนีด้วย URL หากถูกบล็อกโดย robots.txt […]”
เกี่ยวกับวิธีการที่ต้องการ จอห์นกล่าวว่า “ฉันจะเลือกวิธีที่คุณนำไปใช้ได้ง่ายกว่า ถ้า […] คุณมี WordPress และคุณสามารถมีช่องทำเครื่องหมายในโพสต์ที่ระบุว่า 'หน้านี้ไม่มีดัชนี' นั่นอาจเป็นวิธีที่ง่ายที่สุด […]”
การรวบรวมข้อมูล URL ด้วยพารามิเตอร์
54:25 “เราเห็นในไฟล์บันทึกของเรา และยังพิสูจน์ด้วยว่านี่คือ Googlebot ผ่าน IEP การรวบรวมข้อมูลจำนวนมากจากบอทออร์แกนิกไปยัง URL พารามิเตอร์ UTM, Google Display และ Universal App Campaign […] เราไม่เห็นลิงก์ใด ๆ ที่มาจากทุกที่ไปยัง URL เหล่านั้น […] คุณมีความคิดหรือไม่ว่าทำไมสิ่งนี้ถึงเกิดขึ้น”
จอห์นตอบว่า “ที่เดียวกับ Googlebot ที่เรารวบรวมข้อมูลหน้าเว็บที่คุณแสดงรายการในแคมเปญโฆษณา […] คือสำหรับการค้นหาผลิตภัณฑ์ หากคุณมีฟีดการค้นหาผลิตภัณฑ์หรือฟีด Merchant Center […] เราจะรวบรวมข้อมูลหน้าเหล่านั้นสำหรับ Googlebot เพื่อให้แน่ใจว่าเราจะสามารถเลือกหน้าเหล่านั้นสำหรับ Merchant Center ได้ หากคุณมี URL ที่ติดแท็กในนั้น […] เราจะเก็บ URL ที่ติดแท็กเหล่านั้นไว้และประมวลผลใหม่
อาจเป็นเพราะคนอื่นสามารถส่งผลิตภัณฑ์ประเภทนี้ […] อาจไม่จำเป็นต้องเป็นคุณที่ส่งผลิตภัณฑ์ แต่อาจเป็นคนที่ทำงานในนามของคุณหรือได้รับอนุญาตให้ทำเช่นนั้นได้เช่นกัน
หากเราพบลิงก์ไปยังหน้าเหล่านี้ เราจะพยายามรวบรวมข้อมูล หากคุณติดแท็กลิงก์ภายในภายในเว็บไซต์ เราจะยังคงพยายามรับลิงก์นั้นและรวบรวมข้อมูลนั้น หากคุณมีสิ่งที่ตั้งค่าไว้ใน JavaScript ซึ่งบางทีคุณอาจมี URL ติดตามผลที่มีพารามิเตอร์เหล่านี้ตั้งค่าไว้ที่ใดที่หนึ่ง และเมื่อเราประมวลผล JavaScript ดูเหมือนว่าเป็นลิงก์ไปยัง URL ติดตามผลเหล่านั้น เราก็สามารถประมวลผลได้เช่นกัน […] สำหรับฉันแล้ว ดูเหมือนว่าไม่ใช่กรณีเฉพาะ […] แต่เหมือน URL เหล่านี้จำนวนมาก และรู้สึกเหมือนกับในด้านของ Merchant Center”
