Que sont les Soft 404 en SEO ?
Publié: 2022-02-17Soft 404 n'est pas un code d'état HTTP officiel, mais un algorithme avancé qui aide Google à détecter si une page n'existe pas (ou a peu ou pas de contenu) même si le code d'état HTTP ne l'indique pas.
Cependant, l'algorithme n'est pas parfait et Google peut se tromper lors de la classification d'une page.
Quelle que soit la raison des soft 404, ils ont un impact négatif sur votre site Web et diminuent votre visibilité dans la recherche organique.
À partir de cet article, vous apprendrez comment les soft 404 affectent votre site, ce qui peut les causer et ce que vous pouvez faire pour les corriger.
Qu'est-ce qu'un soft 404 ?
Les serveurs communiquent avec les clients (par exemple, les navigateurs ou les robots des moteurs de recherche) via des codes d'état HTTP.
Si la demande d'une page aboutit, le serveur renvoie un code d'état HTTP 200. Si la page est manquante, le serveur répond avec un état 404 (Not Found).
Lorsque les utilisateurs demandent une page qui n'existe pas, ils voient un message dans leur navigateur indiquant que quelque chose s'est mal passé. Cependant, le message affiché par le navigateur ne correspond pas toujours au code d'état HTTP.
C'est là que le soft 404 entre en jeu.
Soft 404 est une étiquette que Google donne à une page lorsqu'il semble que la page n'existe pas, et en même temps, il renvoie un code d'état HTTP 200 réussi.
Si Google décide qu'une page est un soft 404, il ralentit son exploration.
Si nous la voyons [une page] comme un soft 404, ce serait comme un 404, et nous ralentirions l'exploration de cette URL particulière car il n'y a rien ici - pourquoi devons-nous l'explorer tous les jours ?source : John Muller
La détection des soft 404 est essentielle du point de vue du moteur de recherche pour deux raisons :
- Google a des ressources limitées. Le Web est infiniment grand et il est tout simplement impossible d'explorer toutes les pages. C'est pourquoi Google doit hiérarchiser et choisir les pages qui valent la peine d'être explorées. Laisser de côté les soft 404 lui permet de se concentrer sur des pages plus précieuses, augmentant ainsi son efficacité de crawl.
- Google veut présenter des pages de qualité à ses utilisateurs. Si Google soupçonne qu'une page n'existe pas, il est évident que personne ne veut la trouver et elle ne devrait pas apparaître sur la page des résultats de recherche.
Comment les Soft 404 affectent votre site Web
Les conséquences pour votre site Web peuvent varier en fonction du type de pages classées par Google comme soft 404.
Si Google avait raison et que la page n'existe pas vraiment, la principale conséquence est de gaspiller votre budget de crawl .
Votre budget de crawl indique le nombre de pages que Google peut et veut explorer sur votre site Web. Si vous avez, par exemple, 100 000 pages et que votre budget de crawl permet d'en explorer 50 000, il est essentiel de s'assurer que le budget est dépensé sur des pages de valeur. Si Google gaspille votre budget de crawl en crawlant des soft 404, il se peut qu'il n'y en ait pas assez pour les pages qui comptent le plus pour vous et qui vous apportent du trafic.
Le revers de la médaille est lorsque Google fait une erreur lors de l'attribution du statut et pense qu'une page précieuse est un soft 404. Dans ce cas, la page ne sera pas indexée et n'apportera pas de trafic organique.
Comment détecter les soft 404 ?
Vous pouvez vérifier quelles pages Google signale comme soft 404 dans Google Search Console dans le rapport Index Coverage.
Accédez au rapport en cliquant sur l'option "Couverture" dans la barre latérale.

Si Google pense qu'une page est un soft 404, il peut lui attribuer l'un de ces deux statuts :
- Soft 404 (Catégorie exclue), ou
- L'URL soumise semble être un Soft 404 (catégorie d'erreur).
La seule différence entre ces statuts est la façon dont Google a découvert l'URL.
Dans le cas du statut "L'URL soumise semble être un Soft 404", Google l'a trouvé dans votre sitemap (fichier texte créé par les propriétaires de sites Web qui ne doit répertorier que les pages que vous souhaitez indexer). Pendant ce temps, dans le cas du statut "Soft 404", Google a trouvé cette URL par lui-même.
Vous pouvez voir une liste d'URL individuelles signalant des soft 404 en cliquant sur l'un de ces statuts. Ces données sont disponibles pour l'exportation, mais il y a une limite de 1 000 URL. Si vous souhaitez exporter plus et avoir plus d'un sitemap, vous pouvez télécharger les URL de chaque sitemap séparément.
Le rapport Couverture de l'index n'est pas le seul endroit où vous pouvez voir l'état d'une URL.
Dans l' outil d'inspection d'URL de Google Search Console, vous pouvez revérifier les URL individuelles. Si vous souhaitez inspecter plusieurs URL, vous pouvez utiliser l' API d'inspection d'URL et vérifier jusqu'à 2 000 URL à la fois.
Si vous voyez une différence entre les statuts dans le rapport de couverture d'index et l'outil d'inspection d'URL, il se peut qu'il s'agisse simplement d'un retard dans le rapport de couverture d'index. Dans ce cas, faites confiance à l'outil d'inspection d'URL car il affiche des données plus récentes.
Cela est dû au fait que les données du rapport de couverture de l'index sont actualisées à un rythme différent (et plus lent) que celui de l'inspection d'URL. Les résultats affichés dans l'inspection d'URL sont plus récents et doivent être considérés comme faisant autorité lorsqu'ils entrent en conflit avec le rapport de couverture de l'index. (2/4)
– Centrale de recherche Google (@googlesearchc) 11 octobre 2021
Détection Soft 404 sur mobile par rapport au bureau
En 2021, Google a fait le point sur la façon dont il détecte les soft 404 sur les téléphones mobiles et les appareils de bureau.
Il s'est avéré que le statut pouvait être attribué différemment aux versions mobiles et de bureau. Cependant, étant donné que Google Search Console signale les statuts en fonction de la version mobile, elle ne vous montrera pas si seule votre version de bureau est étiquetée comme soft 404.

Essentiellement, ce qui se passe, c'est que parfois nous voyons des pages qui sur les ordinateurs ressemblent à une page 404, nous disons donc qu'il s'agit d'un soft 404 sur ordinateur, nous n'avons pas besoin de l'indexer. Et sur mobile, cela ressemble à une page normale, nous allons donc l'indexer ici.[…] dans la Search Console, nous affichons des soft 404, mais nous l'affichons pour la version mobile. Donc, si sur la version mobile, tout va bien de votre côté, alors dans la Search Console, il semblera qu'il est indexé normalement […], alors que pour le bureau, si nous le voyons comme un soft 404 là-bas, vous ne pourrez pas voir cela directement dans la Search Console.
source : John Muller
Qu'est-ce qui peut causer un soft 404 et comment y remédier
Il existe différentes raisons pour lesquelles Google peut classer une page en tant que soft 404, notamment :
- 404 page répondant avec un code d'état HTTP 200,
- redirections non pertinentes,
- Pages avec peu ou pas de contenu,
- Pages contenant des mots de type 404,
- Problèmes de rendu.
Page 404 répondant avec un code d'état HTTP 200
Si une page est, en fait, une page 404, mais qu'elle renvoie un code d'état HTTP 200, Google la classera comme un soft 404.
C'est quelque chose dont il faut être particulièrement conscient si vous avez une page 404 personnalisée.
Une page 404 personnalisée peut être utile à vos utilisateurs et leur permettre d'explorer le site Web même si la page qu'ils essayaient d'atteindre n'existe pas. Cependant, il n'est pas rare que ces pages renvoient un code d'état HTTP 200.
Vous devriez éviter cette situation car Google continue de crawler ces pages, ce qui gaspille votre budget de crawl.
La solution à ce problème consiste à configurer votre serveur pour renvoyer le code d'état correct pour les pages qui n'existent pas (404 Not Found).
Redirections non pertinentes
La redirection vers une page non pertinente est une mauvaise pratique qui peut dérouter les utilisateurs. C'est pourquoi si Google détecte qu'une redirection pointe vers une page sans rapport, le moteur de recherche peut ne pas la suivre et traiter la page comme un soft 404.
Ouais, ce n'est pas une bonne pratique (confond les utilisateurs), et nous les traitons surtout comme des 404 de toute façon (ce sont des soft-404), donc il n'y a pas d'avantage. Ce n'est pas critique / mauvais, mais une complexité supplémentaire sans raison valable - faites une meilleure page 404 à la place.
– John (@JohnMu) 8 janvier 2019
Pour résoudre le problème, redirigez toujours vers les pages pertinentes.
Regardez le contenu du point de vue des utilisateurs. Par exemple, si un utilisateur recherchait quelque chose de spécifique, serait-il logique qu'il se retrouve sur la page vers laquelle vous redirigez ? Est-ce thématiquement pertinent ? Sinon, il existe peut-être une meilleure page qui pourrait répondre à leur intention, ou peut-être devriez-vous configurer une page 404 au lieu d'une redirection.
Pages avec peu ou pas de contenu
Peu ou pas de contenu sur une page peut faire penser à Google que la page est vide et la classer comme soft 404.
Un exemple peut être un site Web de commerce électronique avec des produits fréquemment en stock et en rupture de stock, ce qui entraîne des catégories de produits vides.
La solution à ce problème n'est pas aussi simple que dans les deux cas précédents.
Une façon de résoudre ce problème consiste à bloquer l'indexation des pages vides. Après tout, s'il s'agit d'une page vide, elle n'est d'aucune utilité pour vos utilisateurs et ne doit pas être indexée. Vous pouvez le faire en ajoutant une balise meta noindex (une balise HTML indiquant aux moteurs de recherche que vous ne souhaitez pas que cette page soit indexée).
De plus, il vaut la peine de repenser la structure de l'ensemble de votre site Web.
Avez-vous beaucoup de catégories de produits qui n'ont, par exemple, qu'un seul produit ? Si tel est le cas, vous devriez reconsidérer si ces catégories sont même nécessaires sur votre site Web. Des pages comme celle-ci peuvent être considérées comme du contenu léger et peuvent avoir un impact négatif sur votre site Web de deux manières :
- Ils peuvent gaspiller votre budget de crawl, et
- Si vous avez beaucoup de pages indexables de mauvaise qualité, Google pourrait penser que l'ensemble de votre site Web manque de qualité et décider d'arrêter d'explorer votre site Web aussi souvent.
Si vous souhaitez en savoir plus sur les pages qui doivent et ne doivent pas être indexées, lisez notre article sur la création d'une stratégie d'indexation pour votre site Web.
Pages contenant des mots de type 404
Parfois, les algorithmes de Google identifient mal une page si elle contient des mots qui apparaissent généralement sur une page 404. Cela peut se produire, par exemple, sur des sites Web de commerce électronique lorsqu'une page de produit utilise des termes tels que « rupture de stock », « produit indisponible » ou « nous ne livrons pas à votre emplacement ».
Toutes les pages de catégorie avaient "Désolé, nous ne livrons pas à cet endroit". Cela a été montré aux clients saisissant un code PIN que nous ne livrons pas, mais qui faisait partie de la page par défaut. Suppression de ce texte de la page et cela a corrigé le soft 404 ! #seo @JohnMu @methode @rustybrick https://t.co/j3UEsXXb3U
— Nikhil Raj. R (@nikhilrajr) 30 décembre 2021
L'auteur du message ci-dessus a résolu le problème en supprimant simplement les mots indiquant que la livraison n'est pas disponible.
Problème de rendu
Le rendu est une étape nécessaire pour que Google puisse voir votre contenu. Si le moteur de recherche ne peut pas le voir, il peut penser que la page est vide et la classer comme soft 404.
L'une des causes des problèmes de rendu est le blocage de ressources telles que CSS ou JavaScript dans robots.txt. Robots.txt est un fichier qui vous permet de spécifier les pages que les robots des moteurs de recherche peuvent explorer et celles qu'ils ne peuvent pas. Si Google ne peut pas accéder aux ressources nécessaires au rendu, il ne pourra pas voir le contenu.
Pour savoir si Google restitue correctement votre contenu, utilisez l'outil d'inspection d'URL dans Google Search Console. Vous pouvez inspecter des URL individuelles et voir comment Google voit vos pages. Si le contenu est manquant, cela indique un problème de rendu.
Pour résoudre le problème, assurez-vous que Google a accès aux ressources nécessaires au rendu. Vérifiez votre fichier robots.txt et assurez-vous que l'exploration de CSS et de JavaScript est autorisée.
Si vous souhaitez en savoir plus sur le fonctionnement du rendu, consultez notre manifeste Rendering SEO – pourquoi le référencement JavaScript ne suffit pas.
Emballer
La surveillance des 404 logiciels est importante pour s'assurer qu'ils ne nuisent pas à votre site Web en gaspillant votre budget d'exploration ou en laissant des pages précieuses hors de l'index.
Voici les principaux points à retenir de l'article pour vous aider à éviter les soft 404 :
- Si une page n'existe pas, assurez-vous qu'elle renvoie un code d'état HTTP 404,
- Lors de la création d'une redirection, assurez-vous toujours que vous redirigez vers un contenu pertinent,
- Ne bloquez pas les ressources essentielles au rendu comme les fichiers CSS ou JavaScript dans votre robots.txt,
- Si vous avez des pages vides, ajoutez la balise meta noindex ou supprimez ces pages de votre site,
- Faites attention à l'utilisation de phrases de type 404. Si vous remarquez que votre page, avec, par exemple, un produit en rupture de stock, est marquée comme soft 404, essayez de supprimer les mots ou d'utiliser des termes différents.
