Come combattere gli scrapper di contenuti del sito web
Pubblicato: 2022-02-21Qualsiasi webmaster che dedichi del tempo a garantire che i contenuti siano unici, ben scritti e utili prova dolore quando scopre che i propri contenuti vengono raschiati e visualizzati su un altro sito web. I raschiatori sono solo una parte del fare affari sul web e non c'è molto che un webmaster possa fare per fermarlo. Puoi, tuttavia, adottare alcune misure intelligenti per combatterlo e preservare il valore unico del tuo sito nei motori di ricerca.
La sfida
Esistono diversi modi per bloccare gli scraper, ma alcuni di essi bloccano anche i crawler dei motori di ricerca legittimi. La sfida per i webmaster è rendere i siti ostili allo scraper ma rimanere comunque compatibili con i motori di ricerca. Questo non è un compito facile, perché ciò che blocca gli scraper generalmente blocca anche i motori di ricerca.
Ad esempio, un modo per bloccare completamente gli scraper è trasformare i tuoi contenuti in immagini. Anche se questo è ottimo per combattere gli scraper, rende il tuo sito completamente ostile alla SEO. I motori di ricerca non saranno in grado di analizzare e leggere i tuoi contenuti, quindi il tuo rango probabilmente diminuirà. I motori di ricerca sono ancora basati su testo, quindi non sono in grado di comprendere e leggere correttamente le immagini.
Poiché scraper e bot funzionano in modo simile, è difficile creare un metodo per bloccare gli scraper senza danneggiare SEO e posizionamento. Quando scegli un metodo, scegli con saggezza. Anche testare un metodo può avere effetti negativi se colpisce i robot dei motori di ricerca. Non eseguire enormi modifiche strutturali a meno che tu non sappia che non bloccheranno i robot legittimi.
Ecco tre modi in cui puoi combattere gli scraper di contenuti ma mantenere il crawler dei motori di ricerca del tuo sito amichevole.
Imposta un canonico nelle tue pagine
Un canonico offre agli algoritmi di Google un forte suggerimento durante l'indicizzazione di contenuti duplicati. Fondamentalmente un canonico dice “Questo è contenuto duplicato. Indicizza invece questo URL." "Questo URL" è una pagina del tuo sito.
Quando uno scraper ruba il tuo contenuto, prende tutto il contenuto all'interno dei tag HTML, inclusi i tag di collegamento. Il risultato è che il tuo canonico è impostato sulle pagine del raschietto. Quando Google esegue la scansione del sito dello scraper, legge il canonico e de-indicizza la pagina dello scraper e conserva la tua. Avere un collegamento canonico che punta alla pagina corrente non influisce sullo stato dell'indice di Google, quindi non devi preoccuparti che causi problemi con le tue pagine locali.
Questa tecnica di solito funziona bene, ma ci sono alcuni problemi con essa. In primo luogo, quando il proprietario del raschietto scopre che è incluso un canonico, può eliminare il canonico. In secondo luogo, un canonico è un suggerimento per Google. Sebbene l'algoritmo del motore di ricerca di solito accetti il canonico e lo utilizzi per l'indicizzazione, non è una garanzia. Se Google vede segnali forti che puntano alle pagine dello scraper, potrebbe mantenerle indicizzate. Tuttavia, questo è raro. Segnali forti includono link, traffico ad alto volume e popolarità della pagina.
Quello che segue è un codice di collegamento canonico.
<link rel="canonical" "https://yoursite.com/yourpage.html" />
Nota che hai bisogno dell'URL assoluto, il che significa che includi il protocollo (HTTP), il nome di dominio (tuosito.com) e il nome della pagina. Includi questo codice in ciascuna delle tue pagine di contenuto.
Usa URL assoluti nei tuoi link
Esistono due tipi di URL di collegamento: assoluti e relativi. Un assoluto assomiglia al collegamento nella sezione precedente. Include il protocollo, il dominio e il nome della pagina.
Un collegamento relativo utilizza solo la directory e il nome della pagina. Ecco un esempio:

- URL assoluto
<link rel="canonical" "https://yoursite.com/yourpage.html" />
- URL relativo
<link rel="canonical" "/tuapagina.html" />
Quando uno scraper ruba i tuoi contenuti, raschia tutti i contenuti e la struttura del sito. Quando utilizzi URL relativi, il collegamento al sito dello scraper funzionerà. Quando utilizzi URL assoluti, questi collegamenti puntano al tuo dominio. Lo scraper deve rimuovere il tuo dominio da tutti i link o tutti puntano al tuo sito, il che può effettivamente essere vantaggioso per il tuo grafico dei link. A meno che il proprietario dello scraper non possa scrivere codice, non sarà in grado di utilizzare i tuoi contenuti a meno che non modifichi gli script.
Crea un Honeypot
Gli Honeypot sono esche che le aziende utilizzano per attirare gli hacker. Imitano un server o un sistema reale e consentono all'hacker di trovare le vulnerabilità. Il vantaggio di un honeypot è la registrazione degli eventi mentre l'hacker penetra nel sistema. Attirano anche gli hacker lontano dai sistemi critici.
Puoi creare un sistema simile sul tuo server web. Tutto ciò che serve è creare un file. Crea un file HTML vuoto e caricalo sul tuo server web. Ad esempio, dai un nome al file "honey.html" e posizionalo sul tuo server web. Aggiungi il file al tuo robots.txt per impedire ai robot di eseguirne la scansione. I crawler rispettano la direttiva robots.txt, quindi non eseguiranno la scansione della pagina se è stata bloccata nel file robots.txt.
Quindi, posiziona un link nascosto alla pagina honey.html su una delle pagine attive del tuo sito. Puoi nascondere il collegamento con un div CSS "visualizza: nessuno". Il codice seguente è un esempio:
<div style="display: none;"><a href="honey.html">nome link</a></div>
Il codice sopra è visibile a crawler e scraper ma non ai normali visitatori.
Ciò che fa questo trucco è indirizzare il traffico a un file. Poiché i blocchi legittimi rispettano robots.txt ma gli scrap non lo fanno, puoi vedere gli IP che eseguono la scansione della pagina. Dovresti registrare il traffico sul tuo sito web, quindi controlla manualmente gli indirizzi IP che eseguono la scansione di honey.html. I robot legittimi come Google e Bing non eseguiranno la scansione della pagina, ma lo faranno gli scraper. Trova gli IP dello scraper e bloccali sul tuo server web o firewall. Dovresti comunque verificare l'IP prima di bloccarlo nel caso in cui si verifichino problemi e il traffico legittimo trovi la pagina.
I raschiatori non dovrebbero mai superare il tuo sito web
Non puoi impedire completamente ai siti di prendere i tuoi contenuti. Dopotutto, un proprietario di un sito senza scrupoli può copiare manualmente il contenuto del tuo sito. Tuttavia, un sito di scraper non dovrebbe mai superare il tuo. La causa più probabile per uno scraper di superare il tuo sito sono problemi con il tuo SEO.
Google ha centinaia di fattori che classificano i siti Web, quindi è difficile sapere quale fattore potrebbe influenzare il tuo sito. Ecco una ripartizione di ciò che puoi rivedere.
- I tuoi contenuti sono unici, utili e scritti per gli utenti?
- Tu o un consulente avete eseguito qualche link building?
- Il tuo contenuto è autorevole?
- Le pagine di bassa qualità sono impostate su noindex?
- La tua navigazione è facile per gli utenti per trovare contenuti e prodotti?
Questi sono alcuni problemi che puoi rivedere, ma potresti aver bisogno di un professionista per controllare il sito in modo più approfondito.
La buona notizia è che gli scraper di solito muoiono rapidamente a causa delle sanzioni e dei reclami di Google all'host del sito dello scraper. Se vedi una classifica di scraper davanti a te, segui questi passaggi per fermarli e prenditi il tempo per rivedere la qualità del tuo sito.
