Cum să lupți împotriva răzuirii conținutului site-ului web
Publicat: 2022-02-21Orice webmaster care petrece timp asigurându-se că conținutul este unic, bine scris și util simte durerea când își găsește conținutul răzuit și afișat pe un alt site web. Scraper-urile sunt doar o parte a desfășurării afacerii pe web și nu poate face mare lucru un webmaster pentru a o opri. Puteți, totuși, să luați câțiva pași inteligenți pentru a-l combate și pentru a păstra valoarea unică a site-ului dvs. în motoarele de căutare.
Provocarea
Există mai multe moduri de a bloca scraper-urile, dar unele dintre ele blochează și crawlerele legitime ale motoarelor de căutare. Provocarea pentru webmasteri este să facă site-urile neprietenoase, dar să rămână în continuare prietenoase cu motoarele de căutare. Aceasta nu este o sarcină ușoară, deoarece ceea ce blochează scrapers blochează în general și motoarele de căutare.
De exemplu, o modalitate de a bloca complet scraper-urile este să vă transformați conținutul în imagini. Deși acest lucru este grozav pentru lupta împotriva scrapers, face site-ul dvs. complet neprielnic SEO. Motoarele de căutare nu vor putea să analizeze și să citească conținutul dvs., așa că probabil că rangul dvs. va scădea. Motoarele de căutare sunt încă bazate pe text, așa că nu sunt capabile să înțeleagă și să citească corect imaginile.
Deoarece scraper-urile și boții funcționează în mod similar, este dificil să creați o metodă de a bloca scraper-urile fără a vă afecta SEO și clasamentul. Când alegeți o metodă, alegeți cu înțelepciune. Chiar și testarea unei metode poate avea efecte negative dacă afectează roboții motoarelor de căutare. Nu efectuați modificări structurale masive decât dacă știți că nu vor bloca roboții legitimi.
Iată trei moduri în care puteți lupta împotriva răzuirii conținutului, dar păstrați site-ul prietenos cu crawler-ul motorului de căutare.
Setați un canonic în paginile dvs
Un canonic oferă algoritmilor Google o sugestie puternică atunci când indexează conținut duplicat. Un canonic spune practic „Acesta este conținut duplicat. În schimb, indexați această adresă URL.” „Această adresă URL” este o pagină de pe site-ul dvs.
Când un scraper vă fură conținutul, ia tot conținutul din etichetele HTML, inclusiv etichetele de link. Rezultatul este că canonicul dvs. este setat pe paginile racletei. Când Google accesează cu crawlere site-ul scraper, citește canonicul și de-indexează pagina scraper-ului și o păstrează pe a ta. Dacă aveți un link canonic care indică pagina curentă, nu vă afectează starea indexului Google, așa că nu trebuie să vă faceți griji că poate cauza probleme cu paginile dvs. locale.
Această tehnică funcționează de obicei bine, dar există câteva probleme cu ea. În primul rând, când proprietarul răzuitorului își dă seama că este inclus un canonic, el poate elimina canonicul. În al doilea rând, un canonic este o sugestie pentru Google. În timp ce algoritmul motorului de căutare acceptă de obicei canonicul și îl folosește pentru indexare, nu este o garanție. Dacă Google vede semnale puternice care indică paginile scraper, le poate menține indexate. Cu toate acestea, acest lucru este rar. Semnalele puternice includ link-uri, trafic de mare volum și popularitatea paginii.
Următorul este un cod de link canonic.
<link rel="canonical" „https://yoursite.com/yourpage.html” />
Observați că aveți nevoie de adresa URL absolută, ceea ce înseamnă că includeți protocolul (HTTP), numele domeniului (site-ul dumneavoastră.com) și numele paginii. Includeți acest cod în fiecare dintre paginile dvs. de conținut.
Utilizați adrese URL absolute în linkurile dvs
Există două tipuri de adrese URL de link: absolute și relative. Un absolut arată ca linkul din secțiunea anterioară. Include protocolul, domeniul și numele paginii.
Un link relativ folosește doar directorul și numele paginii. Iată un exemplu:

- Adresa URL absolută
<link rel="canonical" „https://yoursite.com/yourpage.html” />
- Adresa URL relativă
<link rel="canonical” „/yourpage.html” />
Când un scraper îți fură conținutul, răzuiește tot conținutul și structura site-ului. Când utilizați adrese URL relative, linkul site-ului scraper va funcționa. Când utilizați adrese URL absolute, aceste linkuri indică propriul dvs. domeniu. Scraper-ul trebuie să vă îndepărteze domeniul de la toate linkurile sau toate indică către site-ul dvs., ceea ce poate fi de fapt benefic pentru graficul dvs. de linkuri. Dacă proprietarul scraperului nu poate scrie cod, el nu va putea folosi conținutul dvs. decât dacă editează scripturile.
Creați un Honeypot
Honeypots sunt momeli pe care companiile le folosesc pentru a atrage hackerii. Ele imită un server sau un sistem real și permit hackerului să găsească vulnerabilități. Avantajul unui honeypot este înregistrarea evenimentelor pe măsură ce hackerul pătrunde în sistem. De asemenea, îi atrage pe hackeri departe de sistemele critice.
Puteți crea un sistem similar pe serverul dvs. web. Este nevoie doar de a crea un singur fișier. Creați un fișier HTML gol și încărcați-l pe serverul dvs. web. De exemplu, denumește fișierul „honey.html” și plasează-l pe serverul tău web. Adăugați fișierul în robots.txt pentru a opri roboții să-l acceseze cu crawlere. Crawlerele respectă directiva robots.txt, așa că nu vor accesa cu crawlere pagina dacă o aveți blocată în fișierul robots.txt.
Apoi, plasați un link ascuns către pagina honey.html pe una dintre paginile active ale site-ului dvs. Puteți ascunde legătura cu un div CSS „display: none”. Următorul cod este un exemplu:
<div style="display: none;"><a href="honey.html">nume link</a></div>
Codul de mai sus este vizibil pentru crawlers și scrapers, dar nu pentru vizitatorii obișnuiți.
Ceea ce face acest truc este să direcționeze traficul către un fișier. Deoarece blocurile legitime onorează robots.txt, dar scrape-urile nu, puteți vedea IP-uri care accesează cu crawlere pagina. Ar trebui să înregistrați trafic pe site-ul dvs. web, așa că examinați manual adresele IP care accesează cu crawlere honey.html. Boții legitimi, cum ar fi Google și Bing, nu vor accesa cu crawlere pagina, dar scraperii o vor face. Găsiți IP-uri scraper și blocați-le pe serverul dvs. web sau firewall. Ar trebui să verificați în continuare IP-ul înainte de a-l bloca, în cazul în care apar probleme și traficul legitim găsește pagina.
Scrapers nu ar trebui niciodată să depășească site-ul dvs
Nu puteți bloca complet site-urile să vă preia conținutul. La urma urmei, un proprietar de site fără scrupule poate copia manual conținutul site-ului dvs. Cu toate acestea, un site scraper nu ar trebui să-l depășească niciodată pe al tău. Cea mai probabilă cauză pentru ca un scraper să-ți depășească propriul site este problemele cu propriul tău SEO.
Google are sute de factori care clasifică site-urile web, așa că este dificil să știi care factor ar putea afecta site-ul tău. Iată o detaliere a ceea ce puteți revizui.
- Este conținutul tău unic, util și scris pentru utilizatori?
- Dumneavoastră sau un consultant ați realizat vreun link building?
- Este conținutul dvs. de autoritate?
- Paginile de calitate scăzută sunt setate la noindex?
- Navigarea dvs. este ușor pentru utilizatori să găsească conținut și produse?
Acestea sunt câteva probleme pe care le puteți revizui, dar este posibil să aveți nevoie de un profesionist pentru a audita site-ul mai amănunțit.
Vestea bună este că scraper-urile mor de obicei rapid din cauza penalizărilor și plângerilor Google la gazda site-ului scraper. Dacă vedeți un scraper în fața dvs., luați acești pași pentru a-l opri și fă-ți timp pentru a verifica calitatea site-ului tău.
