วิธีต่อสู้กับเครื่องขูดเนื้อหาเว็บไซต์

เผยแพร่แล้ว: 2022-02-21

ผู้ดูแลเว็บที่ใช้เวลาเพื่อให้แน่ใจว่าเนื้อหามีเอกลักษณ์ เขียนได้ดี และมีประโยชน์จะรู้สึกเจ็บปวดเมื่อพบว่าเนื้อหาของตนถูกคัดลอกและแสดงบนเว็บไซต์อื่น เครื่องขูดเป็นเพียงส่วนหนึ่งของการทำธุรกิจบนเว็บ และไม่มีอะไรมากที่ผู้ดูแลเว็บจะหยุดมันได้ อย่างไรก็ตาม คุณสามารถทำตามขั้นตอนที่ชาญฉลาดเพื่อต่อสู้กับมัน และรักษาคุณค่าเฉพาะของไซต์ของคุณในเครื่องมือค้นหา




เริ่มการฝึกอบรมนักการตลาดพันธมิตรของเราได้ฟรีที่นี่!



ความท้าทาย

มีหลายวิธีในการบล็อกเครื่องขูด แต่บางวิธีก็บล็อกโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาที่ถูกต้องด้วย ความท้าทายสำหรับผู้ดูแลเว็บคือการทำให้เว็บไซต์ไม่เป็นมิตรกับผู้ใช้ แต่ยังคงเป็นมิตรกับเครื่องมือค้นหา นี่ไม่ใช่งานง่าย เพราะสิ่งที่บล็อกเครื่องขูดมักจะบล็อกเครื่องมือค้นหาเช่นกัน

ตัวอย่างเช่น วิธีหนึ่งในการบล็อกเครื่องขูดโดยสมบูรณ์คือการแปลงเนื้อหาของคุณให้เป็นรูปภาพ แม้ว่าสิ่งนี้จะดีสำหรับการต่อสู้กับเครื่องขูด แต่ก็ทำให้เว็บไซต์ของคุณไม่เป็นมิตรกับ SEO โดยสมบูรณ์ เครื่องมือค้นหาจะไม่สามารถแยกวิเคราะห์และอ่านเนื้อหาของคุณได้ ดังนั้นอันดับของคุณจึงน่าจะลดลง เครื่องมือค้นหายังคงเป็นแบบข้อความ ดังนั้นจึงไม่สามารถเข้าใจและอ่านรูปภาพได้อย่างถูกต้อง

เนื่องจากแครปเปอร์และบ็อตทำงานในลักษณะเดียวกัน จึงเป็นเรื่องยากที่จะสร้างวิธีการบล็อกแครปเปอร์โดยไม่กระทบต่อ SEO และอันดับของคุณ เมื่อคุณเลือกวิธีการ เลือกอย่างชาญฉลาด แม้แต่การทดสอบวิธีการก็อาจมีผลเสียได้ หากวิธีนี้ส่งผลต่อบอทของเครื่องมือค้นหา อย่าทำการเปลี่ยนแปลงโครงสร้างครั้งใหญ่ เว้นแต่คุณจะรู้ว่าจะไม่บล็อกบอทที่ถูกต้อง

ต่อไปนี้เป็นสามวิธีที่คุณสามารถต่อสู้กับเครื่องขูดเนื้อหา แต่ให้โปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาเว็บไซต์ของคุณเป็นมิตร



คลิกที่นี่เพื่อรับทุกสิ่งที่คุณต้องการเพื่อประสบความสำเร็จทางออนไลน์


กำหนด Canonical ในเพจของคุณ

Canonical ให้คำแนะนำที่ดีแก่อัลกอริทึมของ Google เมื่อจัดทำดัชนีเนื้อหาที่ซ้ำกัน ตามบัญญัติทั่วไปกล่าวว่า "นี่เป็นเนื้อหาที่ซ้ำกัน จัดทำดัชนี URL นี้แทน” “URL นี้” คือหน้าในเว็บไซต์ของคุณ

เมื่อมีดโกนขโมยเนื้อหาของคุณ เนื้อหาทั้งหมดจะอยู่ภายในแท็ก HTML รวมถึงแท็กลิงก์ด้วย ผลลัพธ์ที่ได้คือ Canonical ของคุณถูกตั้งค่าไว้บนหน้าของมีดโกน เมื่อ Google รวบรวมข้อมูลจากไซต์มีดโกน Google จะอ่านหน้า Canonical และยกเลิกการจัดทำดัชนีหน้าของมีดโกนและเก็บรักษาข้อมูลของคุณเอง การมีลิงก์ตามรูปแบบบัญญัติที่ชี้ไปยังหน้าปัจจุบันจะไม่ส่งผลต่อสถานะดัชนีของ Google ดังนั้นคุณจึงไม่ต้องกังวลว่าจะทำให้เกิดปัญหากับเพจท้องถิ่นของคุณ

เทคนิคนี้มักจะใช้ได้ผลดี แต่มีปัญหาเล็กน้อยกับเทคนิคนี้ อันดับแรก เมื่อเจ้าของมีดโกนพบว่ามี Canonical รวมอยู่ด้วย เขาสามารถถอด Canonical ออกได้ ประการที่สอง Canonical คือคำแนะนำสำหรับ Google แม้ว่าอัลกอริธึมของเครื่องมือค้นหามักจะยอมรับมาตรฐานและใช้สำหรับจัดทำดัชนี แต่ก็ไม่รับประกัน หาก Google เห็นสัญญาณแรงที่ชี้ไปที่หน้าสแครปเปอร์ ก็อาจทำให้มีการจัดทำดัชนีไว้ อย่างไรก็ตามนี่เป็นของหายาก สัญญาณที่ชัดเจน ได้แก่ ลิงก์ การเข้าชมที่มีปริมาณมาก และความนิยมของหน้าเว็บ

ต่อไปนี้เป็นรหัสลิงก์ตามรูปแบบบัญญัติ

<link rel=”canonical” “https://yoursite.com/yourpage.html” />

โปรดสังเกตว่าคุณต้องการ URL ที่สมบูรณ์ ซึ่งหมายความว่าคุณรวมโปรโตคอล (HTTP) ชื่อโดเมน (yoursite.com) และชื่อเพจ รวมรหัสนี้ในหน้าเนื้อหาแต่ละหน้าของคุณ

ใช้ URL แบบสัมบูรณ์ในลิงก์ของคุณ

URL ของลิงก์มีสองประเภท: แบบสัมบูรณ์และแบบสัมพัทธ์ ดูเหมือนว่าลิงก์ในส่วนก่อนหน้า ประกอบด้วยโปรโตคอล โดเมน และชื่อเพจ

ลิงก์แบบสัมพัทธ์เพียงใช้ไดเร็กทอรีและชื่อเพจ นี่คือตัวอย่าง:

    URL แบบสัมบูรณ์

<link rel=”canonical” “https://yoursite.com/yourpage.html” />

    URL สัมพัทธ์

<link rel=”canonical” “/yourpage.html” />

เมื่อมีดโกนขโมยเนื้อหาของคุณ มันจะขูดเนื้อหาและโครงสร้างเว็บไซต์ทั้งหมด เมื่อคุณใช้ URL สัมพัทธ์ ลิงก์ของไซต์มีดโกนจะทำงาน เมื่อคุณใช้ URL แบบสัมบูรณ์ ลิงก์เหล่านี้จะชี้ไปที่โดเมนของคุณเอง มีดโกนต้องดึงโดเมนของคุณออกจากลิงก์ทั้งหมดหรือทั้งหมดชี้ไปที่ไซต์ของคุณ ซึ่งอาจเป็นประโยชน์สำหรับกราฟลิงก์ของคุณ เว้นแต่เจ้าของสแครปเปอร์จะเขียนโค้ดได้ เขาจะไม่สามารถใช้เนื้อหาของคุณได้เว้นแต่จะแก้ไขสคริปต์



คลิกที่นี่เพื่อรับทุกสิ่งที่คุณต้องการเพื่อประสบความสำเร็จทางออนไลน์


สร้าง Honeypot

Honeypots เป็นตัวล่อที่บริษัทต่างๆ ใช้เพื่อดึงดูดแฮกเกอร์ พวกเขาเลียนแบบเซิร์ฟเวอร์หรือระบบจริงและอนุญาตให้แฮกเกอร์ค้นหาช่องโหว่ ข้อดีของ honeypot คือการบันทึกเหตุการณ์เมื่อแฮกเกอร์เจาะระบบ พวกเขายังหลอกล่อแฮกเกอร์ให้ห่างจากระบบที่สำคัญ

คุณสามารถสร้างระบบที่คล้ายกันบนเว็บเซิร์ฟเวอร์ของคุณ เพียงแค่สร้างไฟล์เดียว สร้างไฟล์ HTML เปล่าและอัปโหลดไปยังเว็บเซิร์ฟเวอร์ของคุณ ตัวอย่างเช่น ตั้งชื่อไฟล์ว่า "honey.html" และวางไว้บนเว็บเซิร์ฟเวอร์ของคุณ เพิ่มไฟล์ลงใน robots.txt ของคุณเพื่อหยุดโรบ็อตจากการรวบรวมข้อมูล โปรแกรมรวบรวมข้อมูลปฏิบัติตามคำสั่งของ robots.txt ดังนั้นพวกเขาจะไม่รวบรวมข้อมูลหน้าหากคุณบล็อกหน้าดังกล่าวในไฟล์ robots.txt

ถัดไป วางลิงก์ที่ซ่อนอยู่ไปยังหน้า honey.html ในหน้าใดหน้าหนึ่งที่ใช้งานอยู่ในเว็บไซต์ของคุณ คุณสามารถซ่อนลิงก์ด้วย CSS div "display: none" รหัสต่อไปนี้เป็นตัวอย่าง:

<div style=”display: none;”><a href=”honey.html”>ชื่อลิงก์</a></div>

โค้ดด้านบนสามารถมองเห็นได้สำหรับโปรแกรมรวบรวมข้อมูลและแครปเปอร์ แต่ผู้เข้าชมทั่วไปจะไม่สามารถมองเห็นโค้ดนี้ได้

เคล็ดลับนี้ใช้ชี้การรับส่งข้อมูลไปยังไฟล์เดียว เนื่องจากการบล็อกที่ถูกต้องเป็นไปตาม robots.txt แต่การขูดไม่เป็นเช่นนั้น คุณจึงเห็น IP ที่รวบรวมข้อมูลในหน้าเว็บ คุณควรบันทึกการเข้าชมบนเว็บไซต์ของคุณ ดังนั้นให้ตรวจสอบที่อยู่ IP ที่รวบรวมข้อมูล honey.html ด้วยตนเอง บอทที่ถูกต้องตามกฎหมาย เช่น Google และ Bing จะไม่รวบรวมข้อมูลหน้า แต่สแครปเปอร์จะทำเช่นนั้น ค้นหา IP ของมีดโกนและบล็อกบนเว็บเซิร์ฟเวอร์หรือไฟร์วอลล์ของคุณ คุณควรตรวจสอบ IP ก่อนที่คุณจะบล็อกในกรณีที่เกิดปัญหาและการเข้าชมที่ถูกต้องพบหน้า

เครื่องขูดไม่ควรมีอันดับเหนือกว่าเว็บไซต์ของคุณ

คุณไม่สามารถบล็อกไซต์ไม่ให้นำเนื้อหาของคุณไปโดยสิ้นเชิงได้ ท้ายที่สุด เจ้าของไซต์ที่ไร้ยางอายสามารถคัดลอกเนื้อหาไซต์ของคุณได้ด้วยตนเอง อย่างไรก็ตาม ไซต์มีดโกนไม่ควรมีอันดับเหนือกว่าไซต์ของคุณ สาเหตุที่เป็นไปได้มากที่สุดที่มีดโกนจะมีอันดับเหนือกว่าไซต์ของคุณคือปัญหากับ SEO ของคุณเอง

Google มีปัจจัยหลายร้อยอย่างที่จัดอันดับเว็บไซต์ ดังนั้นจึงเป็นการยากที่จะทราบว่าปัจจัยใดที่อาจส่งผลต่อเว็บไซต์ของคุณ นี่คือรายละเอียดของสิ่งที่คุณสามารถตรวจสอบได้

  • เนื้อหาของคุณมีเอกลักษณ์เฉพาะ มีประโยชน์ และเขียนขึ้นสำหรับผู้ใช้หรือไม่?
  • คุณหรือที่ปรึกษาดำเนินการสร้างลิงค์ใด ๆ หรือไม่?
  • เนื้อหาของคุณมีสิทธิ์หรือไม่?
  • หน้าคุณภาพต่ำถูกตั้งค่าเป็น noindex หรือไม่
  • การนำทางของคุณเป็นเรื่องง่ายสำหรับผู้ใช้ในการค้นหาเนื้อหาและผลิตภัณฑ์หรือไม่

นี่เป็นปัญหาเล็กน้อยที่คุณสามารถตรวจสอบได้ แต่คุณอาจต้องให้ผู้เชี่ยวชาญตรวจสอบไซต์อย่างละเอียดยิ่งขึ้น

ข่าวดีก็คือเครื่องขูดมักจะตายอย่างรวดเร็วจากบทลงโทษและการร้องเรียนของ Google ไปยังโฮสต์ของไซต์มีดโกน หากคุณเห็นอันดับมีดโกนอยู่ข้างหน้าคุณ ให้ทำตามขั้นตอนเหล่านี้เพื่อหยุดพวกเขา และใช้เวลาในการตรวจสอบเว็บไซต์ของคุณเพื่อคุณภาพ