Indexé, bien que bloqué par Robots.txt : tout ce que vous devez savoir

Publié: 2021-07-01

Si certaines pages de votre site Web sont indexées par Google mais ne peuvent pas être explorées, vous recevrez un message "Indexé, bien que bloqué par Robots.txt" sur votre console de recherche Google (GSC).

Bien que Google puisse afficher ces pages, il ne les affichera pas dans les pages de résultats des moteurs de recherche pour leurs mots clés cibles.

Si tel est le cas, vous raterez l'opportunité d'obtenir du trafic organique pour ces pages.

Ceci est particulièrement crucial pour les pages générant des milliers de visiteurs organiques mensuels qui rencontrent ce problème.

À ce stade, vous avez probablement beaucoup de questions sur ce message d'erreur. Pourquoi l'avez-vous reçu ? Comment est-ce arrivé? Et, plus important encore, comment pouvez-vous le réparer et récupérer le trafic si cela arrivait à une page qui était déjà bien classée.

Cet article répondra à toutes ces questions et vous montrera comment éviter que ce problème ne se reproduise sur votre site.

Comment savoir si votre site a ce problème

Normalement, vous devriez recevoir un e-mail de Google vous informant d'un "problème de couverture d'index" sur votre site. Voici à quoi ressemble l'e-mail :

problème de couverture de l'index google

L'e-mail ne précisera pas quelles sont les pages ou l'URL exactes concernées. Vous devrez vous connecter à votre console de recherche Google pour vous découvrir.

Si vous n'avez pas reçu d'e-mail, il est préférable de le voir par vous-même pour vous assurer que votre site est en parfait état.

Une fois connecté à GSC, accédez au rapport de couverture de l'index en cliquant sur Couverture sous Index. Ensuite, sur la page suivante, faites défiler vers le bas pour voir les problèmes signalés par GSC.

Rapport de couverture de l'indice GSC

Le fichier "Indexé, bien que bloqué par robots.txt" est étiqueté sous "Valide avec avertissement". Cela signifie qu'il n'y a rien de mal avec l'URL en soi, mais les moteurs de recherche n'afficheront pas la ou les pages dans les résultats des moteurs de recherche.

Pourquoi votre site rencontre-t-il ce problème (et comment le résoudre) ?

Avant de commencer à penser à une solution, vous devez d'abord savoir quelles pages doivent être indexées et doivent apparaître dans les résultats de recherche.

Il est possible que les URL que vous voyez sur GSC avec le problème "Indexé, bien que bloqué par robots.txt" ne soient pas destinées à générer du trafic organique vers votre site. Par exemple, les pages de destination de vos campagnes publicitaires payantes. Par conséquent, réparer les pages peut ne pas valoir votre temps et vos efforts.

Vous trouverez ci-dessous les raisons pour lesquelles certaines de vos pages présentent ce problème et si vous devez ou non les résoudre :

Interdire la règle sur votre balise Meta Robots.txt et Noindex dans le code HTML de la page

La raison la plus courante pour laquelle ce problème se produit est lorsque vous ou quelqu'un qui gère votre site activez la règle Interdire pour cette URL spécifique sur le fichier robots.txt de votre site et ajoutez la balise Meta noindex sur la même URL.

Tout d'abord, les propriétaires de sites utilisent robots.txt pour informer les robots des moteurs de recherche sur la façon de traiter les URL de votre site. Dans ce cas, vous avez ajouté la règle d'interdiction sur les pages et les dossiers de votre site dans le fichier robots.txt de votre site Web.

Voici ce que vous pouvez voir lorsque vous ouvrez le fichier robots.txt de votre site :

Agent utilisateur : * Interdire : /

Dans l'exemple ci-dessus, cette ligne de code empêche tous les robots d'indexation (*) d'explorer les pages de votre site (Interdire), y compris votre page d'accueil (/). En conséquence, tous les moteurs de recherche n'exploreront ni n'indexeront les pages de votre site.

Vous pouvez modifier le fichier robots.txt pour identifier les robots d'exploration Web (Googlebot, msnbot, magpie-crawler, etc.) et spécifier la ou les pages que vous ne souhaitez pas que les robots d'exploration touchent (/page1, /page2, /page3, etc. ).

Cependant, si vous ne disposez pas d'un accès root à votre serveur, vous pouvez empêcher les robots des moteurs de recherche d'indexer les pages de votre site à l'aide de la balise noindex.

Cette méthode a le même effet que la règle d'interdiction sur robots.txt. Cependant, au lieu de répertorier les différentes pages et dossiers de votre site dans un fichier robots.txt que vous souhaitez empêcher d'apparaître sur les SERP, vous devez saisir la balise meta noindex sur chaque page de votre site que vous ne souhaitez pas pour apparaître dans les résultats de recherche.

C'est un processus beaucoup plus long que la méthode précédente, mais cela vous donne un contrôle plus précis sur l'URL à bloquer. Cela signifie également qu'il y a une marge d'erreur plus faible de votre part.

Correction : Encore une fois, le problème dans GSC survient lorsque les pages de votre site ont une règle d'interdiction sur le fichier robots.txt et une balise noindex.

Pour que les moteurs de recherche sachent s'ils doivent ou non indexer une page, ils doivent pouvoir l'explorer à partir de votre site. Mais si vous empêchez les moteurs de recherche de le faire via votre fichier robots.txt, il ne saura pas quoi faire de cette page.

En utilisant robots.txt et la balise noindex pour se compléter et non se concurrencer, votre site aura des règles beaucoup plus claires et plus directes à suivre par les robots des moteurs de recherche lors du traitement de ses pages.

Pour ce faire, vous devez modifier votre fichier robots.txt. Pour les propriétaires de sites WordPress, l'utilisation de plugins SEO avec un éditeur robots.txt comme Yoast SEO ou Rank Math est la plus pratique.

classer les maths modifier robots.txt

Si le robots.txt n'est pas accessible en écriture de votre côté, vous devez contacter votre fournisseur d'hébergement pour apporter des modifications d'autorisation à vos fichiers et dossiers.

Une autre méthode consiste à vous connecter à votre client FTP ou au gestionnaire de fichiers de votre hébergeur. C'est la méthode préférée des développeurs car ils ont un contrôle total sur la façon de modifier le fichier, entre autres choses.

Mauvais format d'URL

Les URL de votre site qui ne sont pas vraiment des "pages" au sens le plus strict peuvent recevoir le message "Indexé, bien que bloqué par robots.txt".

Par exemple, https://example.com?s=what+is+seo est une page sur un site qui affiche les résultats de la recherche pour la requête "qu'est-ce que le référencement". Cette URL est répandue parmi les sites WordPress où la fonction de recherche est activée sur l'ensemble du site.

Correction : Normalement, il n'est pas nécessaire de résoudre ce problème, en supposant que l'URL est inoffensive et n'affecte pas profondément votre trafic de recherche.

Les pages que vous ne voulez pas indexer ont des liens internes

Même si vous avez une balise noindex sur la page que vous ne souhaitez pas indexer, Google peut les traiter comme des suggestions plutôt que comme des règles. Cela est évident lorsque vous créez un lien vers des pages avec une directive noindex ou une règle d'interdiction sur les pages de votre site que les moteurs de recherche explorent et indexent.

Par conséquent, vous pouvez voir ces pages apparaître sur les SERP même si vous ne le souhaitez pas.

Correction : vous devez supprimer les liens pointant vers cette page particulière et les diriger vers une page similaire à la place.

Pour ce faire, vous devez identifier ses liens internes en exécutant un audit SEO à l'aide d'un outil comme Screaming Frog (gratuit pour les sites Web avec 500 URL) ou Ahrefs Webmaster Tools (une bien meilleure alternative gratuite) pour identifier les pages liées à vos pages bloquées.

À l'aide d'Ahrefs, accédez à Rapports > Pages internes après avoir exécuté un audit. Trouvez les pages que vous avez bloquées des robots d'indexation et non indexées et voyez quelles pages y renvoient dans la colonne Nombre de liens entrants.

pages internes d'audit de site ahrefs

À partir de là, modifiez les liens de ces pages un par un. Ou vous pouvez les remplacer par un lien vers votre page avec une balise noindex.

Pointant vers une chaîne de redirection

Si un lien sur votre site pointe vers un flux infini de redirections, Googlebot cessera de passer par chaque lien avant de trouver l'URL réelle de la page.

Ces chaînes de redirection pourraient également causer des problèmes de contenu dupliqué qui pourraient causer des problèmes de référencement plus importants sur toute la ligne. La seule façon de résoudre ce problème est d'identifier votre page préférée et canonique avec la balise canonique afin que Google sache quelle page parmi d'autres il doit explorer et indexer.

De plus, considérez que le lien vers la redirection au lieu de la page canonique utilise votre budget de crawl. Si le lien de redirection pointe vers plusieurs redirections, vous ne pouvez pas utiliser votre budget de crawl sur les pages importantes de votre site. Au moment où il arrive aux pages les plus importantes, Google ne sera pas en mesure de les explorer et de les indexer correctement après un certain temps.

Correction : Éliminez les liens de redirection de votre site et créez un lien vers la page canonique à la place.

En utilisant à nouveau Ahrefs Webmaster Tools, vous pouvez afficher vos liens de redirection sur la page Outils > Explorateur de liens. Filtrez ensuite les résultats pour ne vous montrer que les liens de redirection de votre site.

explorateur de liens ahrefs

À partir des résultats, identifiez les liens qui forment une chaîne de redirection sans fin. Ensuite, brisez la chaîne en trouvant la page correcte vers laquelle chaque page liée aux redirections doit être liée.

Que faire après avoir résolu ce problème

Une fois que vous avez implémenté les solutions ci-dessus sur les pages importantes avec le problème "Indexé, bien que bloqué par Robots.txt", vous devez vérifier les modifications afin que Google Search Console puisse les marquer comme résolues.

Pour revenir au rapport de couverture de l'index dans GSC, cliquez sur les liens avec ce problème que vous avez résolu. Sur l'écran suivant, cliquez sur le bouton Valider le correctif.

console de recherche valider le bouton de correction

Cela demandera à Google de vérifier si la page n'a plus le problème.

Conclusion

Contrairement à d'autres problèmes découverts par Google Search Console, "Indexé, bien que bloqué par robots.txt" peut sembler être une goutte d'eau dans le seau. Cependant, ces baisses pourraient s'accumuler en un torrent de problèmes sur l'ensemble de votre site qui l'empêcheront de générer du trafic organique.

En suivant les instructions ci-dessus sur la façon de résoudre le problème sur vos pages les plus importantes, vous pouvez empêcher votre site Web de perdre un trafic précieux en optimisant votre site Web pour que Google l'explore et l'indexe correctement.