Google oublie les URL dans la file d'attente d'indexation

Publié: 2021-12-21

Les bogues d'indexation ne sont pas rares. Google a des problèmes d'indexation depuis un certain temps maintenant. Ils peuvent arriver à n'importe qui sans faute du propriétaire du site Web, quelle que soit la taille du site Web. L'année dernière, il y a eu un cas de bogues d'indexation impliquant l'indexation mobile et la canonisation.  

Il y a quelques mois, j'ai personnellement rencontré un bogue d'indexation lorsqu'il s'est avéré que mon Guide ultime d'indexation SEO n'était pas indexé.

Après des recherches approfondies, j'ai découvert que Google avait indexé la mauvaise version de l'URL sans raison apparente. Vous pouvez en savoir plus sur ce bogue particulier dans mon article Mon guide ultime pour l'indexation Le référencement n'est pas indexé.

Plus tôt cette année, j'ai trouvé un autre bogue d'indexation, indiquant que Google pourrait perdre la trace des URL dans la file d'attente d'indexation.  

Décomposons-le étape par étape.

Masquer le contenu
1 URL oubliée dans la file d'attente d'indexation de Google
2 Plus de sites Web souffrent du bogue d'indexation de Google
3 Une solution possible au bogue
4 Conclusion

URL oubliée dans la file d'attente d'indexation de Google

Le 6 octobre, nous avons publié un article : Rendering SEO : How Google Digests Your Content. L'article était une transcription d'une conversation entre Bartosz Goralewicz de Onely, Martin Splitt de Google et Jason Barnard de Kalicube.

Malheureusement, pendant les trois semaines depuis la date de publication, l'article n'a pas apporté de trafic de Google.

capture d'écran de Google Search Console montrant aucun trafic

J'ai trouvé ça bizarre — un autre article intéressant non indexé par Google ? Google souffre-t-il d'un autre bug d'indexation ?

Comme je m'efforce de comprendre les tenants et les aboutissants du processus d'indexation de Google, j'ai décidé de mener une petite enquête.

J'ai vérifié ce que Google Search Console avait à dire sur cette URL.

GSC a déclaré que cette URL avait été "découverte - actuellement non indexée".  

Capture d'écran de l'outil d'inspection d'URL montrant que l'URL n'est pas sur Google

Lorsque vous consultez la documentation de Google, vous trouverez l'explication suivante de l'état :

Découverte - actuellement non indexée : la page a été trouvée par Google, mais n'a pas encore été explorée.
source : Google

Le statut de l'URL semblait hautement improbable. Je ne pouvais pas croire que Google n'ait pas exploré cette page dans les trois semaines suivant sa publication sur un site Web relativement petit.

J'ai donc vérifié les journaux de nos serveurs.

Les journaux de serveur vous permettent d'examiner le trafic arrivant sur votre site Web. Ils contiennent des informations sur chaque requête, y compris son heure et sa date, la chaîne de l'agent utilisateur, l'adresse IP, etc. Grâce à ces informations, j'ai pu voir si (et quand) Googlebot était sur cette page.

Étonnamment, j'ai découvert que Googlebot avait visité la page le jour où nous avons publié l'article !

À ce stade, j'avais deux informations cruciales :

  1. Les données de Google Search Console indiquant que Googlebot n'avait pas encore visité la page n'étaient pas vraies. Les journaux du serveur ont prouvé que Googlebot avait visité l'URL le jour de la publication de l'article.
  2. Ce n'était pas seulement un bogue de rapport de Google Search Console. La page ne recevait aucun trafic organique, il y avait donc clairement des problèmes plus importants que de simples erreurs dans le rapport.

De plus en plus de sites Web souffrent du bogue d'indexation de Google

Je voulais en savoir plus sur ce bogue et son ampleur, j'ai donc recherché un plus grand échantillon de sites Web pour tirer des conclusions exploitables.

J'ai collecté les journaux de serveur de quatre autres sites Web et creusé dans les données.

Il s'est avéré que 100% des sites Web que j'ai examinés souffraient de ce problème. Il y avait plusieurs URL visitées par Googlebot, mais classées à tort par Google Search Console comme :

  • Découvert – actuellement non indexé, ou
  • Inconnue.

Dans le cas du statut Inconnu, il semble que Google déclare qu'il n'a jamais visité la page et n'a même pas le souvenir de découvrir l'URL.

Meme avec Gandalf disant "Je n'ai aucun souvenir de cette URL"

J'ai découvert que le problème était présent sur l'une des pages testées même 6 mois après la première visite de Google. Selon les journaux du serveur, la dernière visite a eu lieu le 7 mars, mais le 27 octobre, le statut était toujours Inconnu.

Il semble que Google oublie parfois les URL à un moment donné du pipeline d'indexation. Il n'est pas clair si le moteur de recherche perd simplement la trace de certaines URL ou les omet délibérément.

Dans tous les cas, les conséquences sont graves. Les pages oubliées n'obtiennent aucun trafic organique.

Une solution possible au bug

Dan Shure a partagé un cas intéressant lié au bogue d'URL oubliée.

Il semble que la modification de l'URL ait suffi à résoudre le problème.

Dan Shure n'était pas le seul à avoir testé cette solution. Frank Olivo a fait indexer presque ⅓ de ses articles en changeant leurs URL !

Il est possible que ces URL relèvent de modèles d'URL de mauvaise qualité, de sorte que Google ne les a pas explorées et les a donc classées comme "découvertes - actuellement non indexées" dans Google Search Console.

Vous pourriez convaincre Google de traiter la page comme une nouvelle et de l'explorer à nouveau en modifiant l'URL. Cette solution peut aider à indexer la page, mais ce n'est qu'une solution de contournement. Cela n'empêche pas que le problème se reproduise. Google devrait résoudre le problème et le bogue devrait être corrigé de manière permanente.

Emballer

Comme décrit dans l'article, il existe un grave problème d'indexation. Ce n'est pas aussi apparent et spectaculaire que les bogues d'indexation précédents (par exemple, liés à la canonisation), mais cela peut toujours avoir un impact négatif sur n'importe quel site Web.

Si vous êtes un employé de Google et que vous souhaitez enquêter sur le problème, je peux partager quelques exemples d'URL qui ont souffert de ce problème.

Avez-vous remarqué ce bug ou un bug d'indexation similaire sur votre site ? Fais-moi savoir!