Comment lutter contre les grattoirs de contenu de site Web
Publié: 2022-02-21Tout webmaster qui passe du temps à s'assurer que le contenu est unique, bien écrit et utile ressent la douleur lorsqu'il trouve son contenu gratté et affiché sur un autre site Web. Les grattoirs ne sont qu'une partie des affaires sur le Web, et il n'y a pas grand-chose qu'un webmaster puisse faire pour l'arrêter. Vous pouvez cependant prendre des mesures astucieuses pour le combattre et préserver la valeur unique de votre site dans les moteurs de recherche.
Le défi
Il existe plusieurs façons de bloquer les scrapers, mais certaines d'entre elles bloquent également les robots d'exploration légitimes des moteurs de recherche. Le défi pour les webmasters est de rendre les sites peu conviviaux tout en restant compatibles avec les moteurs de recherche. Ce n'est pas une tâche facile, car ce qui bloque les scrapers bloque généralement également les moteurs de recherche.
Par exemple, une façon de bloquer complètement les scrapers est de transformer votre contenu en images. Bien que cela soit idéal pour lutter contre les grattoirs, cela rend votre site complètement hostile au référencement. Les moteurs de recherche ne seront pas en mesure d'analyser et de lire votre contenu, de sorte que votre classement chutera probablement. Les moteurs de recherche sont toujours basés sur du texte, ils ne sont donc pas en mesure de comprendre et de lire correctement les images.
Étant donné que les scrapers et les bots fonctionnent de la même manière, il est difficile de créer une méthode pour bloquer les scrapers sans nuire à votre référencement et à votre classement. Lorsque vous choisissez une méthode, choisissez judicieusement. Même tester une méthode peut avoir des effets négatifs si elle affecte les robots des moteurs de recherche. N'effectuez pas de modifications structurelles massives, sauf si vous savez qu'elles ne bloqueront pas les bots légitimes.
Voici trois façons de lutter contre les grattoirs de contenu tout en gardant votre moteur de recherche de site convivial.
Définir un canonique dans vos pages
Un canonique donne aux algorithmes de Google une forte suggestion lors de l'indexation du contenu dupliqué. Un canonique dit essentiellement "C'est du contenu en double. Indexez cette URL à la place. "Cette URL" est une page de votre site.
Lorsqu'un scraper vole votre contenu, il prend tout le contenu dans les balises HTML, y compris les balises de lien. Le résultat est que votre canonique est défini sur les pages du grattoir. Lorsque Google explore le site de scraper, il lit le canonique et désindexe la page du scraper et préserve la vôtre. Avoir un lien canonique qui pointe vers la page actuelle n'affecte pas le statut de votre index Google, vous n'avez donc pas à vous soucier des problèmes avec vos pages locales.
Cette technique fonctionne généralement bien, mais elle présente quelques problèmes. Tout d'abord, lorsque le propriétaire du grattoir découvre qu'un canonique est inclus, il peut supprimer le canonique. Deuxièmement, un canonique est une suggestion pour Google. Bien que l'algorithme du moteur de recherche accepte généralement le canonique et l'utilise pour l'indexation, ce n'est pas une garantie. Si Google voit des signaux forts pointant vers les pages de grattage, il peut les maintenir indexées. Cependant, cela est rare. Les signaux forts incluent les liens, le trafic élevé et la popularité de la page.
Ce qui suit est un code de lien canonique.
<link rel="canonical" "https://votresite.com/votrepage.html" />
Notez que vous avez besoin de l'URL absolue, ce qui signifie que vous incluez le protocole (HTTP), le nom de domaine (votresite.com) et le nom de la page. Incluez ce code sur chacune de vos pages de contenu.
Utilisez des URL absolues dans vos liens
Il existe deux types d'URL de lien : absolue et relative. Un absolu ressemble au lien de la section précédente. Il comprend le protocole, le domaine et le nom de la page.
Un lien relatif utilise simplement le répertoire et le nom de la page. Voici un exemple :

- URL absolue
<link rel="canonical" "https://votresite.com/votrepage.html" />
- URL relative
<link rel="canonical" "/votrepage.html" />
Lorsqu'un scraper vole votre contenu, il scrape tout le contenu et la structure du site. Lorsque vous utilisez des URL relatives, le lien du site de scraper fonctionnera. Lorsque vous utilisez des URL absolues, ces liens pointent vers votre propre domaine. Le grattoir doit supprimer votre domaine de tous les liens ou ils pointent tous vers votre site, ce qui peut en fait être bénéfique pour votre graphique de liens. À moins que le propriétaire du scraper ne puisse écrire du code, il ne pourra pas utiliser votre contenu à moins qu'il ne modifie les scripts.
Créer un pot de miel
Les pots de miel sont des leurres que les entreprises utilisent pour attirer les pirates. Ils imitent un serveur ou un système réel et permettent au pirate de trouver des vulnérabilités. L'avantage d'un pot de miel est de consigner les événements au fur et à mesure que le pirate pénètre dans le système. Ils éloignent également les pirates des systèmes critiques.
Vous pouvez créer un système similaire sur votre serveur Web. Tout ce qu'il faut, c'est créer un fichier. Créez un fichier HTML vierge et téléchargez-le sur votre serveur Web. Par exemple, nommez le fichier « miel.html » et placez-le sur votre serveur Web. Ajoutez le fichier à votre robots.txt pour empêcher les robots de l'explorer. Les robots d'exploration respectent la directive robots.txt, ils n'exploreront donc pas la page si vous l'avez bloquée dans le fichier robots.txt.
Ensuite, placez un lien caché vers la page miel.html sur l'une des pages actives de votre site. Vous pouvez masquer le lien avec une div CSS « display: none ». Le code suivant est un exemple :
<div style="display : none ;"><a href="honey.html">nom du lien</a></div>
Le code ci-dessus est visible pour les robots d'exploration et les grattoirs, mais pas pour les visiteurs normaux.
Ce que fait cette astuce est de diriger le trafic vers un fichier. Étant donné que les blocs légitimes respectent le fichier robots.txt, mais pas les scraps, vous pouvez voir les adresses IP explorer la page. Vous devriez enregistrer le trafic sur votre site Web, alors examinez manuellement les adresses IP qui explorent honey.html. Les bots légitimes tels que Google et Bing n'exploreront pas la page, mais les grattoirs le feront. Trouvez des adresses IP de scraper et bloquez-les sur votre serveur Web ou votre pare-feu. Vous devez toujours vérifier l'adresse IP avant de la bloquer au cas où des problèmes surviendraient et qu'un trafic légitime trouve la page.
Les grattoirs ne devraient jamais surclasser votre site Web
Vous ne pouvez pas empêcher complètement les sites de prendre votre contenu. Après tout, un propriétaire de site peu scrupuleux peut copier manuellement le contenu de votre site. Cependant, un site de grattage ne devrait jamais surclasser le vôtre. La cause la plus probable pour un scraper de surclasser votre propre site est des problèmes avec votre propre référencement.
Google a des centaines de facteurs qui classent les sites Web, il est donc difficile de savoir quel facteur pourrait affecter votre site. Voici une ventilation de ce que vous pouvez examiner.
- Votre contenu est-il unique, utile et écrit pour les utilisateurs ?
- Avez-vous ou un consultant effectué une création de liens ?
- Votre contenu fait-il autorité ?
- Les pages de faible qualité sont-elles définies sur noindex ?
- Votre navigation permet-elle aux utilisateurs de trouver facilement du contenu et des produits ?
Ce sont quelques problèmes que vous pouvez examiner, mais vous pourriez avoir besoin d'un professionnel pour auditer le site plus en profondeur.
La bonne nouvelle est que les grattoirs meurent généralement rapidement à cause des pénalités et des plaintes de Google adressées à l'hébergeur du site de grattage. Si vous voyez un scraper se classer devant vous, suivez ces étapes pour les arrêter et prenez le temps d'examiner la qualité de votre site.
