Cara Melawan Scraper Konten Situs Web

Diterbitkan: 2022-02-21

Setiap webmaster yang menghabiskan waktu untuk memastikan kontennya unik, ditulis dengan baik, dan bermanfaat akan merasakan sakit ketika mereka menemukan konten mereka tergores dan ditampilkan di situs web lain. Scraper hanyalah bagian dari menjalankan bisnis di web, dan tidak banyak yang dapat dilakukan webmaster untuk menghentikannya. Namun, Anda dapat mengambil beberapa langkah cerdas untuk melawannya dan mempertahankan nilai unik situs Anda di mesin telusur.

Mulai Ikuti Pelatihan Affiliate Marketer Kami GRATIS Di Sini!

Tantangan

Ada beberapa cara untuk memblokir pencakar, tetapi beberapa di antaranya juga memblokir perayap mesin pencari yang sah. Tantangan bagi webmaster adalah membuat situs scraper-tidak ramah tetapi tetap ramah mesin pencari. Ini bukan tugas yang mudah, karena apa yang memblokir pencakar umumnya juga memblokir mesin pencari.

Misalnya, salah satu cara untuk sepenuhnya memblokir pencakar adalah dengan mengubah konten Anda menjadi gambar. Meskipun ini bagus untuk melawan pencakar, ini membuat situs Anda benar-benar tidak ramah SEO. Mesin pencari tidak akan dapat mengurai dan membaca konten Anda, sehingga peringkat Anda kemungkinan akan turun. Mesin pencari masih berbasis teks, sehingga mereka tidak dapat memahami dan membaca gambar dengan benar.

Karena scraper dan bot bekerja dengan cara yang sama, sulit untuk membuat metode untuk memblokir scraper tanpa merusak SEO dan peringkat Anda. Ketika Anda memilih metode, pilihlah dengan bijak. Bahkan menguji suatu metode dapat memiliki efek negatif jika mempengaruhi bot mesin pencari. Jangan melakukan perubahan struktural besar-besaran kecuali Anda tahu bahwa mereka tidak akan memblokir bot yang sah.

Berikut adalah tiga cara Anda dapat melawan pengikis konten tetapi tetap ramah perayap mesin telusur situs Anda.

Klik Di Sini Untuk Mendapatkan SEMUA yang Anda Butuhkan Untuk Sukses Online

Tetapkan Canonical di Halaman Anda

Sebuah kanonik memberikan algoritme Google saran yang kuat saat mengindeks konten duplikat. Sebuah kanonik pada dasarnya mengatakan “Ini adalah duplikat konten. Indekskan URL ini sebagai gantinya.” “URL ini” adalah halaman di situs Anda.

Ketika scraper mencuri konten Anda, dibutuhkan semua konten dalam tag HTML termasuk tag tautan. Hasilnya adalah kanonik Anda diatur pada halaman scraper. Saat Google merayapi situs pengikis, ia membaca kanonik dan menghapus indeks laman pengikis dan mempertahankan milik Anda. Memiliki tautan kanonik yang mengarah ke halaman saat ini tidak memengaruhi status indeks Google Anda, jadi Anda tidak perlu khawatir akan menyebabkan masalah dengan halaman lokal Anda.

Teknik ini biasanya bekerja dengan baik, tetapi ada beberapa masalah dengannya. Pertama, ketika pemilik pengikis mengetahui bahwa kanonik disertakan, ia dapat menghapus kanonik. Kedua, kanonik adalah saran untuk Google. Sementara algoritma mesin pencari biasanya menerima kanonik dan menggunakannya untuk pengindeksan, itu bukan jaminan. Jika Google melihat sinyal kuat yang mengarah ke halaman scraper, itu mungkin membuat halaman tersebut tetap diindeks. Namun, ini jarang terjadi. Sinyal kuat mencakup tautan, lalu lintas bervolume tinggi, dan popularitas laman.

Berikut ini adalah kode tautan kanonik.

Perhatikan bahwa Anda memerlukan URL absolut, yang berarti Anda menyertakan protokol (HTTP), nama domain (situsAnda.com), dan nama halaman. Sertakan kode ini di setiap halaman konten Anda.

Gunakan URL Absolut di Tautan Anda

Ada dua jenis URL tautan: absolut dan relatif. Tampilan absolut seperti tautan di bagian sebelumnya. Ini termasuk protokol, domain, dan nama halaman.

Tautan relatif hanya menggunakan direktori dan nama halaman. Berikut ini contohnya:

URL mutlak

URL relatif

Saat scraper mencuri konten Anda, itu mengikis semua konten dan struktur situs. Saat Anda menggunakan URL relatif, tautan situs scraper akan berfungsi. Saat Anda menggunakan URL absolut, tautan ini mengarah ke domain Anda sendiri. Pengikis harus menghapus domain Anda dari semua tautan atau semuanya mengarah ke situs Anda, yang sebenarnya dapat bermanfaat bagi grafik tautan Anda. Kecuali pemilik scraper dapat menulis kode, dia tidak akan dapat menggunakan konten Anda kecuali dia mengedit skrip.

Klik Di Sini Untuk Mendapatkan SEMUA yang Anda Butuhkan Untuk Sukses Online

Buat Honeypot

Honeypots adalah umpan yang digunakan perusahaan untuk menarik peretas. Mereka meniru server atau sistem nyata dan memungkinkan peretas menemukan kerentanan. Keuntungan honeypot adalah mencatat peristiwa saat peretas menembus sistem. Mereka juga memikat peretas dari sistem kritis.

Anda dapat membuat sistem serupa di server web Anda. Yang diperlukan hanyalah membuat satu file. Buat file HTML kosong dan unggah ke server web Anda. Misalnya, beri nama file “honey.html” dan letakkan di server web Anda. Tambahkan file ke robots.txt Anda untuk menghentikan robot agar tidak merayapinya. Crawler menghormati direktif robots.txt, sehingga mereka tidak akan meng-crawl halaman jika Anda memblokirnya di file robots.txt.

Selanjutnya, tempatkan tautan tersembunyi ke halaman honey.html di salah satu halaman aktif situs Anda. Anda dapat menyembunyikan tautan dengan div CSS “display: none”. Kode berikut adalah contohnya:

<div style="display: none;”><a href="honey.html">nama tautan</a></div>

Kode di atas terlihat oleh crawler dan scraper tetapi bukan pengunjung biasa.

Apa yang dilakukan trik ini adalah mengarahkan lalu lintas ke satu file. Karena blok yang sah menghormati robots.txt tetapi goresan tidak, Anda dapat melihat IP merayapi laman. Anda harus mencatat lalu lintas di situs web Anda, jadi tinjau alamat IP yang merayapi honey.html secara manual. Bot yang sah seperti Google dan Bing tidak akan merayapi halaman, tetapi pencakar akan melakukannya. Temukan IP scraper dan blokir di server web atau firewall Anda. Anda masih harus memverifikasi IP sebelum memblokirnya untuk berjaga-jaga jika terjadi masalah dan lalu lintas yang sah menemukan halaman tersebut.

Scraper Seharusnya Tidak Mengungguli Situs Web Anda

Anda tidak dapat sepenuhnya memblokir situs agar tidak mengambil konten Anda. Lagi pula, pemilik situs yang tidak bermoral dapat menyalin konten situs Anda secara manual. Namun, situs scraper tidak boleh mengungguli situs Anda. Kemungkinan besar penyebab scraper mengungguli situs Anda sendiri adalah masalah dengan SEO Anda sendiri.

Google memiliki ratusan faktor yang menentukan peringkat situs web, jadi sulit untuk mengetahui faktor mana yang dapat memengaruhi situs Anda. Berikut adalah rincian dari apa yang Anda dapat meninjau.

Apakah konten Anda unik, bermanfaat, dan ditulis untuk pengguna?
Sudahkah Anda atau konsultan melakukan pembuatan tautan?
Apakah konten Anda otoritatif?
Apakah halaman berkualitas rendah disetel ke noindex?
Apakah navigasi Anda mudah bagi pengguna untuk menemukan konten dan produk?

Ini adalah beberapa masalah yang dapat Anda tinjau, tetapi Anda mungkin memerlukan seorang profesional untuk mengaudit situs secara lebih menyeluruh.

Kabar baiknya adalah bahwa scraper biasanya mati dengan cepat dari penalti dan keluhan Google ke host situs scraper. Jika Anda melihat peringkat scraper di depan Anda, ambil langkah-langkah ini untuk menghentikannya dan luangkan waktu untuk meninjau kualitas situs Anda.