Comment optimiser le contenu dupliqué pour le référencement
Publié: 2022-08-03Le contenu dupliqué est un contenu identique ou similaire qui existe sur plusieurs pages, sur un domaine ou sur différents sites Web.
Le contenu dupliqué est problématique pour les moteurs de recherche car, lorsqu'ils voient le même contenu à plusieurs endroits, ils ne savent pas quelle URL devrait être :
- Indexé,
- Signaux de classement pertinents assignés, et
- Listé plus haut dans les résultats de recherche.
Cela peut entraîner des classements inférieurs, un budget d'exploration gaspillé et des problèmes d'indexation pour votre site Web, dissipant par conséquent le potentiel commercial de vos pages .
Pour le bien de votre entreprise, vous devez comprendre ce qui peut causer du contenu en double et comment optimiser les aspects de votre site pour éviter tout problème - explorons-le.
Comment le contenu dupliqué impacte le référencement
Le contenu dupliqué n'est pas toujours un problème - si vous utilisez le référencement technique pour le garder sous contrôle, cela n'endommagera pas votre trafic organique. Mais si vous laissez le contenu dupliqué non optimisé, cela peut avoir des conséquences mortelles.
Voici les principales façons dont le contenu dupliqué peut affecter négativement votre site Web :
Classements inférieurs
Plusieurs versions du même contenu font que les moteurs de recherche ont du mal à décider quelle page doit être indexée et présentée dans les résultats de recherche .
Lorsque c'est le cas, aucune de vos pages en double ne peut jamais atteindre pleinement son potentiel de classement, si elles sont explorées et indexées en premier lieu.
Transfert réduit de l'autorité de liaison
Les moteurs de recherche peuvent avoir des difficultés à attribuer avec précision les signaux de classement des backlinks aux pages en double .
Si le même contenu existe sur quelques pages, plusieurs URL peuvent recevoir des liens provenant d'autres domaines. Mais l'autorité totale du lien sera alors répartie entre les pages, ce qui limitera le potentiel de classement de votre contenu.
Problèmes d'indexation et budget de crawl gaspillé
Si vous avez un grand site Web, le budget de crawl est souvent une préoccupation. Et les moteurs de recherche peuvent gaspiller leur budget d'exploration en explorant des pages en double .
Vous voulez toujours que le budget d'exploration soit consacré à l'exploration de contenu précieux. Lorsque vous laissez du contenu en double non optimisé sur votre domaine, les robots des moteurs de recherche peuvent gaspiller une partie de leurs ressources en explorant inutilement le même contenu encore et encore.
Non seulement cela retardera leur découverte d'autres contenus sur votre site, mais cela peut également les décourager de revenir sur votre site aussi souvent.
Si tel est le cas, vous risquez de rencontrer des problèmes d' indexation . Gardez à l'esprit que, la plupart du temps, Google examinera les différents signaux, tels que les plans de site, les liens internes et externes, les redirections et autres, et choisira une URL parmi d'autres à indexer. Le problème est qu'il ne s'agit peut-être pas de la version que vous souhaitez indexer.
Si Google n'est pas en mesure d'explorer certaines de vos pages, vous aurez peut-être du mal à indexer vos pages essentielles et uniques.
De plus, voir de grandes quantités de pages en double peut amener les moteurs de recherche à percevoir l'ensemble de votre site Web comme étant de mauvaise qualité , en supposant que d'autres pages contiennent un contenu similaire. Ils peuvent alors hésiter à allouer des ressources pour explorer votre site à l'avenir.
Le contenu dupliqué peut-il entraîner une pénalité Google ?
Vous avez peut-être entendu des avis contradictoires sur la question de savoir si le contenu dupliqué peut vous valoir une pénalité Google.
Le contenu dupliqué ne pénalisera pas votre site, sauf s'il résulte d'activités malveillantes .
Le scraping de contenu est un exemple de pratique manipulatrice liée au contenu dupliqué. Cela se produit lorsque quelqu'un prend le contenu de vos pages pour le republier sur son site.
De telles pratiques sont relativement rares car elles ne causent généralement des problèmes que si le site de grattage fait plus autorité et parvient à surclasser le site Web qui a initialement publié le contenu.
Vous pouvez ajouter une sauvegarde pour protéger votre contenu de telles pratiques en implémentant des balises canoniques autoréférentielles pointant vers vos pages existantes pour indiquer aux moteurs de recherche que le contenu original provient de vous.
Dans les rares cas où Google perçoit que du contenu en double peut être affiché dans l'intention de manipuler nos classements et de tromper nos utilisateurs, nous procéderons également aux ajustements appropriés dans l'indexation et le classement des sites concernés. Par conséquent, le classement du site peut en souffrir, ou le site peut être entièrement supprimé de l'index Google, auquel cas il n'apparaîtra plus dans les résultats de recherche.source : documentation de Google
Google peut différencier les types de contenu dupliqué et comprendre quel contenu dupliqué ne semble pas manipuler les classements de recherche.
Voici des exemples de contenu dupliqué non malveillant :
- Des forums de discussion qui peuvent générer à la fois des pages régulières et simplifiées destinées aux appareils mobiles
- Articles d'une boutique en ligne qui sont affichés ou liés par plusieurs URL distinctes
- Versions imprimables des pages Web
source : documentation de Google
Si vous ne volez pas délibérément du contenu d'autres sites , vous n'avez pas à vous inquiéter.
Quelles sont les causes du contenu dupliqué
Vous n'avez généralement pas besoin de plusieurs versions du même contenu sur votre site Web.
Par conséquent, le contenu en double a tendance à exister en raison d'erreurs plutôt que de décisions conscientes.
Le plus souvent, le contenu en double apparaît en raison d' un développement Web médiocre et d'implémentations défectueuses sur le site , telles que des configurations de serveur incorrectes ou des plates-formes CMS non optimisées.
Nous pouvons trouver des doublons sur tous les types de sites, mais certains y sont plus sujets, en particulier les sites Web énormes avec des milliers ou des millions de pages.
En particulier, les sites de commerce électronique peuvent gérer des quantités excessives de pages en double difficiles à suivre.
Le contenu dupliqué sur les sites de commerce électronique s'applique souvent aux aspects suivants :
- Les pages de produits ont peu ou pas de contenu ou n'incluent que des descriptions de produits génériques sur de nombreuses pages. Si une page contient la description du fabricant d'un produit donné, celle-ci peut également apparaître dans d'autres domaines et Google peut la traiter comme un contenu en double.
- Les pages de catégorie ont des filtres qui affichent des listes des mêmes produits sur plusieurs pages.
Un contenu identique sur plusieurs URL concerne également les articles de blog .
Les sites peuvent inclure des articles de comparaison, des listes de fonctionnalités de produits ou d'outils, où de nombreux éléments de contenu peuvent décrire les mêmes outils, produits ou fonctionnalités sur plusieurs pages.
Les sections de blog peuvent avoir des articles qui correspondent à plusieurs catégories - par conséquent, de nombreuses URL peuvent mener au même article.
Les sites d'actualités utilisent souvent des balises qui collectent du contenu sur des sujets connexes, mais dans certaines situations, les pages peuvent utiliser plusieurs balises et apparaître à plusieurs endroits sur le site.
Le risque de contenu dupliqué concerne également les sites Web qui affichent des annonces provenant de bases de données utilisées par d'autres domaines , comme les places de marché ou les sites immobiliers. Par conséquent, des annonces ou des publications identiques peuvent apparaître sur plusieurs domaines.
De nombreux sites utilisent du contenu généré par les utilisateurs . Bien que potentiellement bénéfique, cela peut être une autre source de contenu dupliqué - cela s'applique à tout site contenant des publications, des publicités, des pages de profil, etc., créés par les utilisateurs. Souvent, les utilisateurs peuvent n'écrire que quelques mots, en utilisant du texte copié ou du spam, ou ajouter uniquement un lien vers leur site Web sur la page de profil.
Il ne s'agit en aucun cas d'une liste exhaustive des causes du contenu dupliqué, mais elle devrait vous donner une idée du type de contenu qui met votre site en danger et qui doit être surveillé.
Façons de gérer le contenu dupliqué
Selon la qualité et le rôle de vos pages en double dans la hiérarchie du site, vous souhaiterez peut-être les traiter par différentes méthodes.
Voici quelles sont vos options et ce que vous devez savoir sur chaque solution :
Utiliser des balises canoniques
Les balises canoniques indiquent aux moteurs de recherche quelle page contient la version principale d'un contenu donné et doit être indexée.
Vous pouvez informer les moteurs de recherche grâce à la canonisation qu'une page donnée doit être traitée comme une copie d'une URL spécifiée . Les signaux de classement, comme l'autorité de lien appliquée à cette page par les moteurs de recherche, doivent être crédités à l'URL spécifiée.
La mise en œuvre des balises canoniques nécessite moins de temps de développement que d'autres solutions, telles que les redirections, car elles sont ajoutées au niveau de la page plutôt qu'au niveau du serveur. Assurez-vous d'ajouter des balises canoniques à la section <head> du HTML – si vous la placez dans le <body>, elle ne sera pas respectée.
Bien que les robots des moteurs de recherche suivent généralement la directive canonique, dans certains cas, ils peuvent l'ignorer et choisir une page canonique différente. Cela peut se produire si les moteurs de recherche voient des signaux plus forts pointant vers une autre URL, tels que davantage de liens internes ou des backlinks faisant autorité.
Ajouter des redirections
Une autre solution pour lutter contre le contenu dupliqué consiste à mettre en œuvre des redirections des URL non préférées vers leurs versions préférées.
Si vous redirigez une URL de manière permanente, utilisez une redirection 301, qui sera généralement la meilleure option lorsqu'il s'agit de gérer le contenu dupliqué.
Les redirections vous aident à regrouper les signaux de classement sous une seule URL , de sorte que Google ne doit indexer que la page cible.
Implémenter une balise noindex
Vous pouvez ajouter une balise noindex aux pages qui sont des doublons et qui ne doivent pas être indexables par les moteurs de recherche, mais qui doivent rester visibles pour les utilisateurs .
Assurez-vous cependant de ne pas bloquer l'exploration de ces pages. Si vous le faites, les bots ne pourront pas voir la balise noindex.
Supprimer les pages en double
Vous pouvez supprimer les pages en double si elles ne servent à rien pour vos visiteurs ou votre entreprise et que vous ne prévoyez pas d'y apporter des améliorations.
Vous pouvez les supprimer en modifiant leur code d'état en 404 ou 410 .

Les deux codes d'état ont les mêmes conséquences à long terme. La seule différence est que le 410 pourrait supprimer des pages de l'index et limiter leur exploration plus rapidement que le 404.
Meilleures pratiques pour traiter le contenu dupliqué
Passons en revue les aspects que vous devez prendre en compte avec les pages en double pour résoudre les problèmes potentiels.
Décidez si les pages en double doivent être explorées
Déterminez si vous devez autoriser les moteurs de recherche à explorer vos pages en double . Cela dépend en grande partie du type de contenu dupliqué et de ce que vous avez l'intention d'en faire.
Google doit pouvoir explorer les pages si elles contiennent des redirections , sinon il ne les verra pas. Le cas est similaire si vous avez ajouté des balises noindex - Google doit explorer une page pour découvrir une balise noindex et la suivre.
De plus, si vous avez apporté des améliorations à vos doublons , par exemple en ajoutant du contenu unique, Google devra explorer la page pour réévaluer sa qualité.
Si vous avez du contenu en double qui n'apporte pas de valeur à votre site et que vous ne pouvez pas y apporter de modifications, limitez la capacité des moteurs de recherche à l'explorer en implémentant la directive appropriée dans robots.txt .
Ajustez la structure de votre URL
Des structures d'URL incohérentes peuvent entraîner de nombreux contenus en double.
Voici les aspects des URL auxquels vous devez prêter attention :
Wwws et non-wwws ou HTTP et HTTPS
Vous pouvez avoir des URL sur votre site qui sont accessibles sans wwws comme example.com et via des URL qui incluent wwws, comme www.example.com .
Le même problème concerne le protocole : les URL peuvent inclure http://example.com ou https://example.com .
La plupart des sites Web modernes utilisent HTTPS car il offre une communication plus sécurisée. Mais parfois, vous pouvez encore avoir des pages qui sont encore accessibles en HTTP. Et, si vous êtes passé à HTTPS et que vous n'avez pas redirigé le site depuis HTTP, vous pouvez même en créer deux versions.
Que vous ajoutiez www ou non, et quel que soit le protocole que vous utilisez, assurez-vous qu'il est cohérent .
Si vous découvrez des URL qui ne suivent pas le modèle sélectionné, implémentez des redirections 301 pour les chemins non préférés qui mènent à la version préférée.
Caractères minuscules et majuscules
Google traite les URL comme sensibles à la casse . Ainsi, pour Google, example.com/page et example.com/PAGE seront deux pages différentes.
Il est d'usage d'utiliser des caractères minuscules dans les URL, il est donc plus facile pour les utilisateurs de les saisir sans erreur.
Cependant, si vous utilisez les cas de manière interchangeable, vous pouvez créer différentes URL avec le même contenu.
Si vous trouvez de telles occurrences, choisissez l'URL avec la casse préférée et redirigez la version incorrecte vers celle-ci .
Barres obliques finales
Les URL identiques avec et sans une barre oblique à la fin seront également considérées comme des pages différentes, telles que example.com et example.com/ .
Encore une fois, assurez-vous de vous en tenir au même modèle d'URL et redirigez les mauvaises pages si nécessaire.
Paramètres de suivi ou de filtrage
Les paramètres de filtrage sur les sites de commerce électronique conduisent généralement à des pages en double.
Si de nombreux filtres sont disponibles, ils peuvent être sélectionnés dans différentes combinaisons, générant des montagnes d'URL avec le même contenu ou presque identique. Un exemple de ceci pourrait être https://www.example.com/clothes/dresses?size=medium .
Les paramètres ont également tendance à être utilisés à des fins de suivi , ce qui est une autre source de contenu dupliqué. Par exemple, vous pouvez ajouter des paramètres UTM pour suivre les visites à partir de sources spécifiques, telles que Twitter ou la newsletter. Voici un exemple : https://example.com/page?utm_source=twitter .
Vous devez canoniser vos URL paramétrées en versions d'URL sans paramètres de suivi .
ID de session
Les sessions peuvent stocker des informations sur les visiteurs pour l'analyse Web, où chaque utilisateur visitant un site Web se voit attribuer un ID de session différent stocké dans l'URL. Cela pourrait ressembler à ceci : https://example.com?sessionId=jsdfo74256sdfh .
Si chaque URL demandée par un visiteur reçoit un ID de session ajouté, il y aura beaucoup de pages en double car le contenu de ces URL est le même.
Canonicalisez les URL avec les ID de session ajoutés aux URL sans eux.
URL d'impression uniquement
Avoir une version imprimable d'une page à une URL distincte signifie qu'il existe deux versions du même contenu, par exemple, https://www.example.com/page/ et https://www.example.com/print /page/ .
Implémentez une URL canonique de la version imprimable à la version standard de la page.
Optimisez votre contenu
Vous pouvez apporter d'autres ajustements en vous concentrant sur le contenu de vos pages.
L'essentiel est que si vous avez des pages précieuses qui devraient classer et générer du trafic, assurez-vous qu'elles contiennent un contenu unique et de haute qualité qui cible l'intention spécifique de l'utilisateur.
Bien que cela demande du temps et des ressources, cela en vaudra la peine à long terme.
Voici quelques aspects du contenu à prendre en compte dans votre optimisation :
Améliorer les pages produits
Fournissez des descriptions de produits uniques au lieu de copier la description générique du fabricant.
Une FAQ est un excellent endroit pour inclure des informations supplémentaires sur vos produits ou services. Attention cependant – si vous indiquez les détails exacts mentionnés dans la description du produit, il peut s'agir d'une duplication partielle du contenu.
Ajuster les pages de catégorie
Chaque page de catégorie doit être unique et pertinente . Parcourez vos catégories et demandez-vous si chacune est nécessaire. Dans quelle mesure sont-elles utiles pour les utilisateurs ?
Envisagez d'en supprimer certains ou de les combiner en un seul. Faites de même pour toutes les options de filtrage ou de tri disponibles dans les catégories.
Consolider le contenu
Si vous avez quelques articles traitant de sujets connexes, envisagez de les regrouper en un contenu plus volumineux qui peut être sa version la plus complète.
De cette façon, vous pouvez créer un contenu utile qui fournit toutes les informations en un seul endroit, plutôt que de les disperser sur quelques URL, minimisant ainsi le nombre de pages similaires.
Il peut également être préférable de se classer avec un article de haute qualité plutôt que plusieurs articles médiocres qui ciblent le même sujet.
Créer du contenu supplémentaire
Envisagez de créer du contenu supplémentaire qui peut rendre les pages plus uniques et plus précieuses et augmenter leurs chances d'être indexées et bien classées. Pensez à améliorer l'expérience utilisateur et ce qui aidera le plus les visiteurs .
Par exemple, supposons que vous ayez un site Web avec des offres d'emploi.
Dans ce cas, vous pouvez créer un calculateur de salaire. Vous pouvez fournir des informations supplémentaires que les visiteurs peuvent rechercher en décrivant les différents types de contrats, en expliquant chaque déduction, en fournissant les avantages et les inconvénients des différentes formes d'emploi, etc.
Parcourez les pages avec peu de contenu et pensez s'il y a quelque chose que vous pouvez ajouter.
Mais si vous ne pouvez pas les améliorer et qu'ils offrent une valeur limitée aux utilisateurs et ne peuvent pas générer de trafic organique vers votre site, il est préférable d' ajouter une balise noindex pour les empêcher d'être indexés.
Utiliser le contenu généré par l'utilisateur
Un contenu unique et complet créé par les utilisateurs peut être bénéfique pour votre site. Par exemple, vous pouvez encourager les clients à laisser des avis et à les afficher sur vos pages.
Les avis peuvent fournir des descriptions réelles de la façon dont les clients utilisent vos produits ou de leur expérience avec vos services, enrichissant ainsi votre site.
En particulier, les pages produits peuvent bénéficier d'avis approfondis et impartiaux contenant des images et des informations spécifiques sur le produit.
La mise en œuvre de mécanismes spécifiques, tels qu'un nombre minimum de caractères qu'un utilisateur doit écrire pour publier un avis ou une annonce sur votre site, est une excellente approche pour empêcher le contenu léger ou dupliqué généré par l'utilisateur.
Optimiser la diffusion de contenu international
Si vous avez plusieurs versions linguistiques de votre site avec le même contenu, les différentes versions linguistiques ne seront pas considérées comme des doublons.
Cependant, cela pourrait être problématique si vous avez le même contenu et que vous l'utilisez pour cibler des personnes dans différentes régions qui parlent la même langue . Par exemple, vous pouvez avoir le même contenu sur différentes versions de sites en anglais : une pour les États-Unis, une pour le Canada et une pour le Royaume-Uni.
Si vous diffusez le même contenu à différents publics, implémentez des balises hreflang pour signaler à Google la langue et le pays que vous essayez d'atteindre.
Parfois, même lorsque les attributs hreflang sont en place, Google peut classer le contenu comme doublon et simplement plier deux versions ou plus ensemble. Ce n'est peut-être pas un problème grave dans de nombreux cas, mais cela peut affecter négativement l'expérience utilisateur.
C'est pourquoi vous devez simplement éviter d'afficher le même contenu sur plusieurs pages.
Efforcez-vous de localiser votre contenu , en particulier pour les marchés internationaux stratégiques . Localiser n'est pas seulement traduire - vous devez l'adapter au pays spécifique que vous ciblez, en tenant compte du vocabulaire local, des coutumes, de la devise, etc.
Gérer les liens internes
Une fois que vous avez décidé de la version préférée de vos URL, vérifiez les liens internes de votre site et assurez-vous que chacun d'eux pointe vers la bonne version de l'URL.
Syndiquer correctement le contenu
Lors de la syndication de contenu, la source originale doit être choisie comme canonique.
De même, lorsqu'un autre site diffuse votre contenu, assurez-vous qu'il inclut un lien vers votre contenu d'origine et qu'il pointe vers la bonne URL.
Désactiver l'accès aux environnements de staging
Les environnements de préproduction ou de test contiennent une copie du site disponible en production. Par conséquent, ils ne doivent pas être explorables ou indexables sur les moteurs de recherche. Pour empêcher les bots et les utilisateurs d'y accéder, implémentez l'authentification HTTP.
Rendre les pages de résultats de recherche internes non indexables
Les visiteurs qui utilisent vos résultats de recherche internes voient différentes variantes de vos pages, affichant généralement des URL identiques ou similaires.
Assurez-vous de ne pas créer de lien vers les pages de résultats de recherche internes afin que les bots ne puissent pas suivre un chemin pour les trouver et les explorer.
Vous devez ajouter des balises noindex à ces pages, afin qu'elles ne soient pas indexées. Cependant, si vous constatez que des robots parcourent ces pages de manière excessive, vous pouvez restreindre leur accès dans le fichier robots.txt.
Il convient de noter que dans certains cas, vous souhaiterez peut-être indexer certaines de vos pages de recherche internes, mais seulement certaines d'entre elles. Si vous analysez comment vos utilisateurs recherchent votre contenu sur Google et constatez qu'une page de recherche interne pourrait parfaitement répondre à l'intention de l'utilisateur, n'hésitez pas à rendre cette page indexable.
Prévenir les problèmes de contenu en double causés par le CMS
Les plates-formes CMS causent leur part de problèmes avec le contenu dupliqué.
Par exemple, WordPress génère automatiquement des pages de balises et de catégories . De telles pages peuvent être un grave gaspillage des ressources des robots d'exploration.
WordPress crée également la pagination des commentaires , où les pages paginées affichent le contenu original et n'affichent que des commentaires différents en bas.
Vous pouvez également constater que votre CMS crée des pages distinctes pour les images qui ne contiennent aucun autre contenu.
Ajoutez des balises noindex aux pages indésirables ou désactivez ces fonctionnalités dans votre CMS.
Comment trouver des problèmes de contenu dupliqué sur votre site
Il existe quelques méthodes rapides pour vérifier si votre contenu peut avoir été dupliqué.
Vous pouvez utiliser un outil comme Copyscape pour voir quel contenu de vos pages apparaît sur le Web.

Pour en savoir plus sur les problèmes de contenu dupliqué sur votre site, utilisez Siteliner , qui révèle comment les pages de votre site correspondent au contenu des autres.

Rapport de couverture de l'index de Google
Pour analyser plus en détail les problèmes de contenu dupliqué, consultez le rapport de couverture de l'index de Google Search Console qui vous montrera les problèmes spécifiques et comment vous pouvez les résoudre.
Vous pouvez y trouver les erreurs suivantes qui indiquent des problèmes d'indexation liés au contenu dupliqué :
Dupliquer sans canonique sélectionné par l'utilisateur
Google a trouvé des URL en double qui ne sont pas canonisées dans la version préférée. Vous pouvez vérifier quelle URL a été choisie comme canonique en accédant à l' outil d'inspection d'URL .
Pour résoudre ce problème, il est recommandé de sélectionner vous-même l'URL canonique .
Dupliquer, Google a choisi un canonique différent de celui de l'utilisateur
Google a ignoré l'URL canonique spécifiée et en a sélectionné une autre qu'il a jugée plus appropriée.
Ce problème indique que Google n'a pas trouvé suffisamment de signaux pointant vers l'URL spécifiée représentant la version principale du contenu donné - découvrez comment réparer Dupliquer, Google a choisi un canonique différent de l'utilisateur .
URL soumise en double non sélectionnée comme canonique
Cet état indique que vous avez soumis des URL sans URL canonique et que Google considère que les URL soumises sont en double, il a donc choisi une URL canonique différente.
Bien que ce statut soit similaire à Dupliquer, Google a choisi une URL canonique différente de celle de l'utilisateur, la différence est que vous avez explicitement demandé à Google d'indexer ces URL sans inclure d'URL canonique .
Encore une fois, vous devez ajouter des balises canoniques à l'URL préférée.
Sommaire
Le contenu en double n'entraînera pas de sanctions Google, mais il peut néanmoins ralentir efficacement la croissance de votre site sur le Web.
C'est pourquoi vous devez être conscient de toutes les pages en double et surveiller vos implémentations pour vous assurer qu'aucun mécanisme ne crée de nombreuses pages sans votre supervision.
Créer un contenu unique sur les pages, assurer la cohérence des URL et implémenter des balises canoniques et des redirections, le cas échéant, sont d'excellents moyens d'aider Google à indexer et à classer correctement vos pages.
