Qu'est-ce que le contenu dupliqué ?
Publié: 2022-04-22Le contenu dupliqué fait référence à un contenu Web identique ou très similaire trouvé à plusieurs endroits ou à plusieurs URL différentes.
Google et Raven Tools estiment que le contenu en double représente une bonne partie d'Internet - 25-30% et 29% respectivement. Ainsi, il y a certaines choses que vous devez savoir sur le contenu dupliqué et sa relation avec le classement des moteurs de recherche de votre site.
Dans cet article, nous parlerons de la signification du contenu dupliqué, de la manière dont les problèmes de référencement de contenu dupliqué surviennent et de la manière dont vous pouvez les résoudre.
Table des matières
- Que signifie contenu dupliqué dans le référencement ?
- Comment se produisent les problèmes de contenu dupliqué et de référencement ?
- Pourquoi le contenu dupliqué est-il un problème pour le référencement ?
- Comment vérifier le contenu en double
- Mise à jour Panda pour le contenu dupliqué
- FAQ sur le contenu dupliqué
Que signifie contenu dupliqué dans le référencement ?
Avant de parler des problèmes liés au contenu dupliqué SEO, nous devons clarifier ce que cela signifie en termes de référencement. Lorsqu'il parle de contenu dupliqué, Google le définit comme des blocs substantiels de contenu identiques ou sensiblement similaires et trouvés dans ou entre les domaines.
Comme déjà mentionné, plusieurs sources évaluent qu'environ un quart de l'Internet est un contenu répétitif.
Cela peut sembler être un gros problème, cependant, lorsqu'il s'agit de dupliquer du contenu en ligne, les choses ne sont pas aussi graves que vous ne le pensez.
Bien qu'un bon pourcentage de contenu soit répété sur les URL, cela ne signifie pas toujours qu'il a été copié ou volé. La plupart du temps, le contenu dupliqué est un sous-produit parfaitement innocent de nombreux facteurs.
Comment se produisent les problèmes de contenu dupliqué et de référencement ?
Parfois, le contenu dupliqué est intentionnel et d'autres fois, il est accidentel. Bien que vous puissiez penser que vous êtes en clair parce que vos textes sont tous originaux, un problème de contenu en double peut toujours survenir.
En fait, la plupart des cas de contenu dupliqué ne sont pas malveillants, trompeurs et souvent, ils ne sont même pas intentionnels. Passons en revue la principale raison pour laquelle votre contenu peut apparaître à plusieurs endroits.
WWW vs Non-WWW et HTTP vs HTTPS
Souvent, les problèmes de contenu dupliqué sont causés par de simples erreurs de configuration de votre site. L'un des aspects négligés est de savoir si votre site est disponible à la fois en version www et en version non www.
La même chose peut arriver avec les sites HTTP et HTTPS.
Essentiellement, votre site sera accessible à l'un des emplacements suivants :
- https://www.exemple.com
- https://exemple.com
- http://www.exemple.com
- http://exemple.com
Si votre site est disponible sur plusieurs d'entre eux et que vous n'en tenez pas compte correctement, il peut être considéré comme un contenu en double, alors qu'en réalité, il ne s'agit que d'une seule page.
Barres obliques finales
Un autre problème similaire se pose avec les barres obliques finales. Classiquement, une barre oblique à la fin indique un répertoire, tandis que l'absence d'un indique un fichier. Quel que soit celui vers lequel vous pointez, vous pourriez avoir :
- http://example.com/foo/
- http://example.com/foo
Google les traite comme des URL distinctes, ce qui signifie que vous pouvez avoir un contenu différent sur les deux pages. C'est bien en ce qui concerne Google, cependant, c'est mauvais pour l'expérience utilisateur. Les gens trouveront cette configuration déroutante, il est donc préférable que les deux URL mènent à la même page.
Cela nous amène au problème de la duplication. Si les deux URL sont disponibles avec le même contenu, vous avez copié votre page. Du point de vue de Google, il s'agit exactement du même contenu à deux endroits distincts, ce qui peut nuire à votre classement SEO s'il n'est pas résolu.
Paramètres d'URL et navigation à facettes
Les systèmes de recherche à facettes sont un moyen efficace de filtrer les produits. Cependant, lorsqu'ils ne sont pas gérés, ils peuvent créer différentes URL à la suite de nombreuses combinaisons, toutes avec le même contenu. Cela a un impact sur votre budget de crawl et sur l'équité de vos liens.
Un problème similaire se pose avec les paramètres d'URL, tels que les ID de session ou les ID de suivi, où la même page est accessible via plusieurs URL.
Versions de page alternatives
Suivant la tendance du contenu dupliqué accidentellement, nous arrivons à un autre oubli commun pour les webmasters - les pages alternatives. Un site, tel que "example.com/page" peut apparaître sous une URL différente en tant que :
- Page adaptée aux mobiles – m.example.com/page
- Page imprimable – example.com/print/page
- Page mobile accélérée (AMP) – example.com/amp/page
Toutes ces versions dupliquent le contenu de la page et causent des problèmes si elles ne sont pas corrigées.
Pagination
En ce qui concerne les pages de catégories, les titres des articles de blog, les avis des utilisateurs ou les commentaires, le contenu peut être divisé sur plusieurs pages à l'aide de la pagination.
Encore une fois, s'il n'est pas géré correctement, cela peut entraîner la duplication du contenu entre les URL.
Grattoirs
Si quelqu'un vole votre contenu et le publie sur un autre site Web, vous avez un problème de contenu en double. Google peut généralement déterminer quel site est l'original, cependant, vous voudrez peut-être vous adresser aux grattoirs pour faire bonne mesure.
Syndications
Si vous autorisez un autre site Web à republier votre travail, vous créez du contenu en double entre domaines. Bien que le contenu syndiqué ne doive pas se classer au-dessus de votre site d'origine, vous pouvez prendre des précautions pour vous assurer que cela ne se produise pas.
Pourquoi le contenu dupliqué est-il un problème pour le référencement ?
Bien que beaucoup aient perpétué l'idée d'une pénalité de contenu en double Google , ce n'est généralement pas quelque chose dont vous devez vous soucier.

Le contenu dupliqué n'est pas un problème en soi. Cependant, si un texte est dupliqué sur plusieurs domaines pour manipuler le classement des moteurs de recherche, cela devient un problème.
Contenu dupliqué de manière innocente et SEO
Google assure à ses utilisateurs que le contenu dupliqué ne nuira pas à leur classement dans les moteurs de recherche, tant que le contenu est honnête et non manipulateur. Bien que cela puisse être vrai, le contenu dupliqué peut entraîner de moins bonnes performances de référencement.
Bien que Google ait confiance dans la page qu'il choisit d'afficher dans les résultats de recherche, il arrive parfois que le moteur de recherche se trompe.
Supposons que la même page soit disponible sur plusieurs URL. Dans un tel cas, Google regroupera les URL en double dans un cluster. Cela peut vous affecter de plusieurs manières :
- Google sélectionnera la "meilleure" URL en tant que représentante du cluster. Parfois, vous et Google pouvez être en désaccord sur la "meilleure" URL, ce qui vous cause des problèmes de marque et d'UX ;
- Bien que la popularité des liens doive être consolidée sur tous les membres d'un cluster, certains doublons peuvent ne pas être détectés par Google. Cela peut entraîner une dilution des liens et nuire à vos efforts de classement du contenu ;
Tenez également compte du fait que ce phénomène peut entraîner une exploration inefficace, laissant moins de temps à Google pour parcourir votre contenu plus récent et mis à jour.
Contenu scrapé et syndiqué
Que vous ayez autorisé un autre site à republier votre travail ou que votre contenu ait été supprimé, ce contenu apparaît désormais sur plusieurs domaines.
Cela ne devrait généralement pas causer de problèmes, mais parfois, aussi rare soit-il, le contenu supprimé ou republié peut surclasser l'original.
Heureusement, les problèmes de contenu en double peuvent être traités de différentes manières, ce qui permet d'optimiser vos performances de référencement.
Comment vérifier le contenu en double
Avant de pouvoir résoudre des problèmes, vous devez d'abord savoir qu'ils existent. Cela vous obligera à rechercher du contenu dupliqué sur votre site. Vous pouvez le faire de plusieurs manières :
1. Console de recherche Google
Google Search Console peut fournir des informations sur les performances de votre page Web dans les résultats de recherche. Ce service peut également vous aider à identifier les problèmes de contenu en double , par exemple en trouvant différentes URL du même classement de page dans les résultats de recherche.
2. Recherche de contenu en double
Un moyen rapide de vérifier le contenu dupliqué consiste à rechercher des blocs de texte à partir de votre page. Lorsque vous les recherchez, placez les mots entre guillemets.
Idéalement, seule votre page devrait apparaître. S'il y a d'autres résultats, vous pouvez avoir un problème, mais pas toujours. Vous pouvez essayer ceci avec plusieurs phrases.
Vous pouvez également utiliser la barre de recherche Google pour rechercher votre site. Tapez "site :" suivi de l'URL, le tout entre guillemets. Cela vous montrera les pages que Google a indexées et peut potentiellement classer.
3. Vérificateurs de contenu en double
Il existe différents vérificateurs de plagiat, ainsi que des vérificateurs de contenu en double de Google , qui peuvent vous aider à déterminer si votre contenu n'est pas original, présente un problème de contenu en double interne ou a été republié.
Comment traiter le contenu en double
Bien que Google réussisse assez bien à gérer le contenu en double, vous pouvez toujours être plus impliqué et résoudre directement les problèmes éventuels afin d'obtenir les meilleurs résultats.
Voici quelques conseils sur ce qu'il faut faire :
- Utilisez une redirection 301, une URL canonique ou une redirection noindex ;
- Soyez cohérent dans votre maillage interne ;
- Utiliser des domaines de premier niveau - TLD - pour gérer le contenu spécifique à un pays ;
- Assurez-vous que les sites contenant du contenu syndiqué contiennent un lien vers votre page ou utilisent la balise noindex ;
- Consolider les pages avec un contenu similaire ;
- Déposer une demande DMCA en cas de contenu scrapé ;
Mise à jour Panda pour le contenu dupliqué
La mise à jour Panda de Google a été lancée en 2011 et a été un changement incroyablement important pour l'algorithme de Google. Bien que Panda n'ait pas été conçu pour traiter spécifiquement le contenu en double sur les sites Web, la mise à jour encourage le texte unique et informatif, ce qui inclut l'évitement du contenu répétitif.
FAQ sur le contenu dupliqué
Que signifie contenu dupliqué en SEO ?
Le contenu dupliqué représente des blocs de texte substantiels qui sont soit une correspondance complète, soit sensiblement similaires à d'autres contenus en ligne. Le contenu répétitif représente environ un quart d'Internet et n'est généralement pas de nature trompeuse ou malveillante.
Y a-t-il une pénalité Google pour le contenu en double ?
La pénalité de contenu en double de Google a été déformée dans la mesure où elle est devenue un mythe. Le contenu en double n'est pas pénalisé, sauf s'il enfreint les consignes aux webmasters de Google et s'il a l'intention de manipuler les résultats des moteurs de recherche.
Le contenu dupliqué nuit-il au classement SEO ?
Le contenu dupliqué peut avoir un impact négatif sur votre stratégie de référencement. Google essaie de consolider plusieurs URL menant à la même page et d'afficher des résultats originaux supérieurs au contenu republié. Pourtant, ce n'est pas un système parfait car une URL défavorable ou une republication inter-domaines peut être mieux classée que votre article d'origine. C'est pourquoi le contenu dupliqué doit également être traité de manière proactive.
Quelle quantité de contenu dupliqué est acceptable ?
Il n'y a pas de mesure définitive pour suggérer quelle quantité de contenu que vous avez peut être dupliquée. Cependant, en règle générale, pas plus de 5 % du contenu dupliqué ne devrait se retrouver sur votre site. Pour gérer ce pourcentage, recourez aux vérificateurs de plagiat en ligne.
