Wie man Website-Content-Scraper bekämpft
Veröffentlicht: 2022-02-21Jeder Webmaster, der Zeit damit verbringt sicherzustellen, dass Inhalte einzigartig, gut geschrieben und nützlich sind, fühlt den Schmerz, wenn sie feststellen, dass ihre Inhalte auf einer anderen Website geschrottet und angezeigt werden. Scraper gehören einfach dazu, Geschäfte im Internet zu tätigen, und ein Webmaster kann nicht viel dagegen tun. Sie können jedoch einige clevere Schritte unternehmen, um dagegen anzukämpfen und den einzigartigen Wert Ihrer Website in Suchmaschinen zu bewahren.
Die Herausforderung
Es gibt mehrere Möglichkeiten, Scraper zu blockieren, aber einige von ihnen blockieren auch legitime Suchmaschinen-Crawler. Die Herausforderung für Webmaster besteht darin, Websites Scraper-unfreundlich zu machen, aber dennoch suchmaschinenfreundlich zu bleiben. Das ist keine leichte Aufgabe, denn was Scraper blockiert, blockiert in der Regel auch Suchmaschinen.
Eine Möglichkeit, Scraper vollständig zu blockieren, besteht beispielsweise darin, Ihre Inhalte in Bilder umzuwandeln. Während dies großartig ist, um Scraper zu bekämpfen, macht es Ihre Website völlig SEO-unfreundlich. Suchmaschinen können Ihre Inhalte nicht analysieren und lesen, sodass Ihr Rang wahrscheinlich sinken wird. Suchmaschinen sind immer noch textbasiert, daher können sie Bilder nicht richtig verstehen und lesen.
Da Scraper und Bots ähnlich funktionieren, ist es schwierig, eine Methode zu entwickeln, um Scraper zu blockieren, ohne Ihre SEO und Ihr Ranking zu beeinträchtigen. Wenn Sie sich für eine Methode entscheiden, wählen Sie mit Bedacht. Auch das Testen einer Methode kann negative Auswirkungen haben, wenn sie Suchmaschinen-Bots betrifft. Führen Sie keine massiven strukturellen Änderungen durch, es sei denn, Sie wissen, dass sie keine legitimen Bots blockieren.
Hier sind drei Möglichkeiten, wie Sie Content-Scraper bekämpfen können, aber Ihre Website suchmaschinen-crawlerfreundlich halten.
Setzen Sie ein Canonical in Ihren Seiten
Ein Canonical gibt Google-Algorithmen einen starken Vorschlag bei der Indizierung von Duplicate Content. Ein Canonical sagt im Grunde: „Dies ist doppelter Inhalt. Indizieren Sie stattdessen diese URL.“ „Diese URL“ ist eine Seite auf Ihrer Website.
Wenn ein Scraper Ihre Inhalte stiehlt, nimmt er alle Inhalte innerhalb der HTML-Tags, einschließlich Link-Tags. Das Ergebnis ist, dass Ihr Canonical auf den Seiten des Scrapers gesetzt wird. Wenn Google die Scraper-Site crawlt, liest es die kanonische und de-indexiert die Scraper-Seite und bewahrt Ihre eigene auf. Ein kanonischer Link, der auf die aktuelle Seite verweist, wirkt sich nicht auf Ihren Google-Indexstatus aus, sodass Sie sich keine Sorgen darüber machen müssen, dass dies Probleme mit Ihren lokalen Seiten verursacht.
Diese Technik funktioniert normalerweise gut, aber es gibt ein paar Probleme damit. Erstens, wenn der Besitzer des Scrapers herausfindet, dass ein Canonical enthalten ist, kann er das Canonical entfernen. Zweitens ist ein Canonical ein Vorschlag für Google. Obwohl der Suchmaschinenalgorithmus normalerweise den Canonical akzeptiert und für die Indizierung verwendet, ist dies keine Garantie. Wenn Google starke Signale sieht, die auf die Scraper-Seiten hinweisen, behält es sie möglicherweise im Index. Dies ist jedoch selten. Starke Signale sind Links, hoher Traffic und Popularität der Seite.
Das Folgende ist ein kanonischer Linkcode.
<link rel="canonical" "https://yoursite.com/yourpage.html" />
Beachten Sie, dass Sie die absolute URL benötigen, was bedeutet, dass Sie das Protokoll (HTTP), den Domänennamen (yoursite.com) und den Seitennamen angeben. Fügen Sie diesen Code auf jeder Ihrer Inhaltsseiten ein.
Verwenden Sie absolute URLs in Ihren Links
Es gibt zwei Arten von Link-URLs: absolute und relative. Ein Absolutes sieht aus wie der Link im vorherigen Abschnitt. Es enthält das Protokoll, die Domäne und den Seitennamen.
Ein relativer Link verwendet nur den Verzeichnis- und Seitennamen. Hier ist ein Beispiel:

- Absolute URL
<link rel="canonical" "https://yoursite.com/yourpage.html" />
- Relative URL
<link rel="canonical" "/ihreseite.html" />
Wenn ein Scraper Ihre Inhalte stiehlt, kratzt er den gesamten Inhalt und die Site-Struktur. Wenn Sie relative URLs verwenden, funktioniert der Link der Scraper-Site. Wenn Sie absolute URLs verwenden, verweisen diese Links auf Ihre eigene Domain. Der Scraper muss Ihre Domain aus allen Links entfernen oder sie verweisen alle auf Ihre Website, was für Ihr Linkdiagramm tatsächlich von Vorteil sein kann. Wenn der Scraper-Eigentümer keinen Code schreiben kann, kann er Ihre Inhalte nicht verwenden, es sei denn, er bearbeitet die Skripte.
Erstellen Sie einen Honeypot
Honeypots sind Köder, mit denen Unternehmen Hacker anlocken. Sie ahmen einen echten Server oder ein System nach und ermöglichen es dem Hacker, Schwachstellen zu finden. Der Vorteil eines Honeypots besteht darin, dass Ereignisse protokolliert werden, wenn der Hacker in das System eindringt. Sie locken auch Hacker von kritischen Systemen weg.
Sie können ein ähnliches System auf Ihrem Webserver erstellen. Es genügt, eine Datei zu erstellen. Erstellen Sie eine leere HTML-Datei und laden Sie sie auf Ihren Webserver hoch. Benennen Sie die Datei beispielsweise „honey.html“ und legen Sie sie auf Ihrem Webserver ab. Fügen Sie die Datei Ihrer robots.txt hinzu, um zu verhindern, dass Robots sie crawlen. Crawler beachten die robots.txt-Anweisung, sodass sie die Seite nicht crawlen, wenn Sie sie in der robots.txt-Datei blockiert haben.
Platzieren Sie als Nächstes einen versteckten Link zur Seite honey.html auf einer der aktiven Seiten Ihrer Website. Sie können den Link mit einem „display: none“ CSS div ausblenden. Der folgende Code ist ein Beispiel:
<div style="display: none;"><a href="honey.html">Linkname</a></div>
Der obige Code ist für Crawler und Scraper sichtbar, aber nicht für normale Besucher.
Was dieser Trick bewirkt, ist den Datenverkehr auf eine Datei zu lenken. Da legitime Blöcke die robots.txt berücksichtigen, Scrapes jedoch nicht, können Sie sehen, wie IPs die Seite crawlen. Sie sollten den Datenverkehr auf Ihrer Website protokollieren, also überprüfen Sie die IP-Adressen, die honey.html crawlen, manuell. Legitime Bots wie Google und Bing crawlen die Seite nicht, aber Scraper schon. Finden Sie Scraper-IPs und blockieren Sie sie auf Ihrem Webserver oder Ihrer Firewall. Sie sollten die IP dennoch überprüfen, bevor Sie sie blockieren, falls Probleme auftreten und legitimer Datenverkehr die Seite findet.
Scraper sollten Ihre Website niemals übertreffen
Sie können Websites nicht vollständig daran hindern, Ihre Inhalte aufzunehmen. Schließlich kann ein skrupelloser Websitebesitzer Ihre Websiteinhalte manuell kopieren. Allerdings sollte eine Scraper-Site niemals Ihre übertreffen. Die wahrscheinlichste Ursache dafür, dass ein Scraper Ihre eigene Website übertrifft, sind Probleme mit Ihrer eigenen SEO.
Google hat Hunderte von Faktoren, die Websites bewerten, daher ist es schwierig zu wissen, welcher Faktor Ihre Website beeinflussen könnte. Hier ist eine Aufschlüsselung dessen, was Sie überprüfen können.
- Ist Ihr Inhalt einzigartig, nützlich und für Benutzer geschrieben?
- Haben Sie oder ein Berater Linkbuilding durchgeführt?
- Ist Ihr Inhalt maßgeblich?
- Sind Seiten mit geringer Qualität auf noindex gesetzt?
- Ist Ihre Navigation für Benutzer einfach, Inhalte und Produkte zu finden?
Dies sind einige Probleme, die Sie überprüfen können, aber Sie benötigen möglicherweise einen Fachmann, um die Website gründlicher zu prüfen.
Die gute Nachricht ist, dass Scraper in der Regel schnell von Google-Strafen und Beschwerden an den Host der Scraper-Site absterben. Wenn Sie ein Scraper-Ranking vor sich sehen, ergreifen Sie diese Schritte, um es zu stoppen, und nehmen Sie sich die Zeit, Ihre Website auf Qualität zu überprüfen.
