5 erreurs à éviter dans vos plans de site
Publié: 2022-03-15Nous avons créé un outil qui nous permet de vérifier combien de pages d'un site donné sont indexées dans Google .
Jusqu'à présent, nous avons vérifié des centaines de sites Web et l'outil nous a aidés à diagnostiquer les problèmes de référencement auxquels nos clients étaient confrontés, tels que ceux liés au budget de crawl et à l'indexation.
Nous rencontrons souvent des anomalies de données lorsque nous enquêtons sur ces problèmes et voyons de nombreux sites Web avec de graves erreurs dans leurs sitemaps.
Comment cela pourrait-il affecter votre site Web ?
Si votre sitemap n'est pas correctement implémenté, Googlebot peut passer beaucoup de temps à explorer des URL de mauvaise qualité, ce qui représente une perte de budget d'exploration. Par conséquent, de nombreuses URL utiles de votre site Web risquent de ne pas être indexées dans Google , car Google ne disposera pas de ressources suffisantes pour les explorer.
Quelles erreurs les sites Web populaires commettent-ils dans leurs sitemaps, et comment les évitez-vous pour vous assurer que Google ne gaspille pas le budget de crawl sur du contenu non pertinent ?
Creusons.
Quel est le budget de crawl ?
Tout d'abord, laissez-moi vous expliquer ce qu'est le budget de crawl et en quoi il est pertinent pour l'indexation de sites Web.
Google est capable d'explorer beaucoup de contenu, mais ses ressources ne sont pas infinies . Il doit donc faire des choix avec les ressources dont il dispose.
C'est pourquoi Googlebot définit un budget d'exploration pour tous les sites Web - le nombre d'URL qu'il peut et veut explorer.
Le budget de crawl d'un site dépend de deux métriques :
- Limite de capacité d'exploration - calculée pour explorer tout le contenu important d'un site Web sans dépasser les limites de son serveur - et,
- Demande d'exploration - déterminée par la taille, la popularité et la fréquence de mise à jour d'un site Web.
Si le site ralentit ou répond avec des erreurs de serveur, la limite diminue et Googlebot explore moins.source : documentation de Google
En raison des capacités limitées de Googlebot, vous devez planifier les URL que Googlebot explore sur votre site Web.
La clé pour ajuster les URL à explorer est expliquée dans la documentation de Google :
Gérez votre inventaire d'URL : utilisez les outils appropriés pour indiquer à Google quelles pages explorer et lesquelles ne pas explorer. Si Google passe trop de temps à explorer des URL qui ne sont pas appropriées pour l'index, Googlebot peut décider que cela ne vaut pas la peine de regarder le reste de votre site.source : documentation de Google
Pour récapituler, voici ce que nous savons jusqu'à présent :
- Si votre site Web est lent, Google peut explorer moins d'URL, donc moins d'URL se retrouveront dans l'index de Google,
- Si Google est en mesure de découvrir de nombreuses URL de mauvaise qualité lors de l'exploration de votre site, il peut décider que la qualité globale de votre site est médiocre.
Voici un plat à emporter crucial :
Avec des tonnes d'URL de mauvaise qualité à explorer par Google, Googlebot peut perdre beaucoup de temps à les explorer et peut ne pas être en mesure d'explorer de nombreuses URL de haute qualité sur votre site Web.
Cela a le plus de poids pour les sites Web volumineux ou en évolution rapide, car ils doivent être explorés souvent et de manière approfondie afin d'attirer du trafic.
En quoi les sitemaps sont-ils importants pour votre budget de crawl ?
Comme je l'ai expliqué, l'optimisation de votre budget de crawl est une étape extrêmement importante pour l'indexation de votre site.
L'un des moyens de gérer votre inventaire d'URL consiste à créer et à maintenir un sitemap bien optimisé.
Un sitemap est un fichier dans lequel vous fournissez des informations sur les pages, vidéos et autres fichiers de votre site, et les relations entre eux […]. Un plan du site indique à Google les pages et les fichiers que vous jugez importants sur votre site, et fournit également des informations précieuses sur ces fichiers. Par exemple, quand la page a été mise à jour pour la dernière fois et toute autre version linguistique de la page.source : documentation de Google
Cependant, des tonnes de sites Web ne parviennent pas à créer des sitemaps bien optimisés. Heureusement, nous pouvons apprendre de leurs erreurs.
Quelles erreurs devez-vous éviter dans votre sitemap ?
J'ai analysé de nombreux sites populaires et j'ai constaté que beaucoup d'entre eux commettent des erreurs dans leurs sitemaps qui affectent négativement leur budget de crawl, ce qui pourrait entraîner des problèmes avec leur couverture d'index.
Voici ma répartition des erreurs à éviter lors de la création d'un sitemap.
Soumettre des URL malformées
L'une des erreurs que j'ai découverte concernait la structure des URL dans les sitemaps.
Analysons-le en regardant un exemple précis.
Whisky.de
Quand j'ai vu les statistiques recueillies par notre logiciel, j'ai été stupéfait : cela montrait que 0% des pages de whisky.de soumises dans les sitemaps étaient indexées dans Google.
Je savais que cela ne pouvait pas être vrai, alors j'ai approfondi les données.
La plupart des URL des sitemaps de whisky.de semblaient valides :
- Ils étaient canoniques,
- Ils n'ont pas été bloqués par la balise meta noindex robots,
- Ils n'étaient pas bloqués par la directive d'interdiction dans robots.txt,
- Ils répondaient avec un code de statut 200.
Mais ensuite, j'ai remarqué que toutes les URL avaient des doubles barres obliques après le domaine de premier niveau - jetez un œil à cet exemple :
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
- https://www.whisky.de//presse/pressespiegel/playboy.html
La double barre oblique semble être une erreur de programmation évidente lors de la génération de sitemaps et une erreur facile à corriger.
Cependant, les pages incluses dans les sitemaps ont des balises canoniques pointant vers les URL respectives - leurs versions correctes avec une seule barre oblique.
Par conséquent, il est fort probable que Google visite deux fois plus d'URL que prévu : les URL avec les barres obliques simples et les doubles barres obliques.

Google dispose de mécanismes pour repérer les modèles défectueux dans les URL, et techniquement parlant, il est possible que Google ait repéré l'erreur. Ainsi, il pourrait explorer whisky.de en conséquence et indexer les URL correctement structurées. Mais nous n'avons aucun moyen de vérifier cela sans avoir accès au compte Google Search Console du site Web ou aux journaux du serveur.
En pratique, vous ne devriez pas vous fier aux algorithmes de Google pour corriger vos erreurs - des pratiques comme celle que j'ai décrite peuvent mettre à rude épreuve votre budget de crawl et même garder vos pages hors de l'index de Google.
Envoi d'URL de contenu fin
Il existe une multitude de sites Web qui incluent des pages de contenu léger dans leurs plans de site.
Permettez-moi de vous montrer un exemple.
AnnTaylor
J'ai découvert cette erreur sur AnnTaylor.com, un magasin de vêtements pour femmes de premier ordre.
Je voulais vérifier combien de leurs catégories de produits étaient indexées dans Google, j'ai donc enquêté sur leur sitemap dédié aux pages de catégories.
La vérification initiale a montré que seulement 46 % des pages de catégories étaient indexées dans Google.
J'ai donc examiné cela plus en détail et j'ai appris que la plupart de leurs pages de catégorie étaient des soft 404.
Plus précisément, ces pages affichaient le message suivant :

Pas étonnant que Google n'ait pas voulu les indexer !
La prochaine étape logique était d' exclure les soft 404 de mon échantillon. À cette fin, j'ai vérifié l'état d'indexation du même sitemap, mais j'ai utilisé un déclencheur qui excluait les pages contenant la phrase "Nous avons recherché avec style et pas de chance", comme illustré dans l'image ci-dessus.
Il s'est avéré qu'après avoir exclu les URL 404 logicielles, jusqu'à 82 % des pages de leur sitemap de catégorie sont indexées.
Pourtant, 18% des pages de catégories ne sont pas indexées dans Google - c'est ce sur quoi leurs référenceurs devraient se concentrer.
La situation d'AnnTaylor est grave pour les raisons suivantes :
- Tout d'abord, Google gaspille son budget d'exploration en explorant du contenu léger.
- De plus, ce n'est pas un mystère que Google juge la qualité à trois niveaux : la page, la section et l'ensemble du site. Google peut décider que les pages de catégorie, en général, sont de mauvaise qualité et qu'elles peuvent toutes être désindexées . Dans le passé, cela arrivait à des sites Web comme Giphy, Instagram ou Pinterest, comme je l'ai décrit dans l'un de mes articles. Espérons que cela n'arrivera pas à AnnTaylor.
Ignorer les URL précieuses
Comme je l'ai déjà mentionné, les sitemaps aident Google à mieux comprendre votre site Web et à l'explorer plus intelligemment.
Cependant, j'ai remarqué que de nombreux sites Web n'incluent pas leurs URL les plus précieuses dans les sitemaps.
Voici un exemple.
Bonnes lectures
J'ai vérifié un échantillon général (tiré de toutes les URL des sitemaps ) pour GoodReads et j'ai découvert que seulement 35% d'entre eux étaient indexés.
J'ai été très surpris, car je sais que c'est un site Web de très haute qualité. Je sais que je ne suis pas le seul à visiter GoodReads pour lire des critiques et savoir si un livre en particulier vaut la peine d'être lu.
Ensuite, j'ai vu que l'échantillon que nous avons vérifié n'avait pas d'URL avec des livres inclus. J'ai donc décidé de télécharger tous leurs sitemaps.
Le résultat : aucune URL avec des livres dans les sitemaps.
Pourquoi est-ce mauvais signe ?
Il existe un risque que Google donne la priorité aux URL trouvées dans les sitemaps et, d'une manière ou d'une autre, ignore la visite des pages de produits.
Avis de non-responsabilité : GoodReads n'est pas notre client. Donc, techniquement parlant, il est possible qu'ils aient un sitemap privé soumis à Google Search Console.
Utilisation excessive du paramètre <lastmod>
L'un des paramètres que vous pouvez inclure dans votre fichier sitemap est <lastmod>, spécifiant la dernière fois qu'une page a été mise à jour. De cette façon, Google peut facilement sélectionner les URL qui ont changé récemment.
Cependant, certains sites Web abusent de cette technique. Et le faire pourrait avoir des effets négatifs car, comme nous l'avons lu dans les directives de Google, " Google utilise la valeur <lastmod> si elle est exacte de manière cohérente et vérifiable (par exemple en comparant à la dernière modification de la page)."
Regardons un exemple de site qui surutilise le paramètre <lastmod>.
Avons
J'ai regardé le plan du site des produits d'Avon et toutes les URL répertoriées ont le même paramètre <lastmod> - le jour actuel :

Il est prudent de supposer que toutes les URL d'Avon ne changent pas quotidiennement, donc Google hésite à indexer ses pages.
Lien vers votre environnement de staging dans les sitemaps
Il est assez courant que Google indexe les URL de staging.
C'est généralement un mystère de savoir comment Google trouve des liens vers de telles pages. Mais une explication courante est que ces URL sont directement liées à partir de sitemaps.
Acehardware.com
Notez que acehardware.com a depuis mis à jour les plans de site et corrigé l'erreur ci-dessous.
Voici un échantillon que j'ai initialement vérifié.
Comme vous pouvez le voir, j'ai découvert qu'ils renvoyaient au site de développement à partir de leur sitemap.

Pourquoi est-il mauvais d'inclure votre environnement de staging dans un sitemap ?
- Google explore les URL inutiles.
- Si les URL de staging sont indexées, elles confondent les utilisateurs à la recherche d'une information particulière et tombent dessus dans les résultats de recherche.
Bonnes pratiques à suivre dans les sitemaps
Vous avez parcouru mon aperçu des choses à éviter lors de la création et de la gestion d'un sitemap pour un site Web.
Alors maintenant, quelles sont les pratiques que vous devriez suivre ?
Voici quelques bonnes pratiques que je recommande :
– N'incluez que des URL canoniques dans vos sitemaps.
– La taille maximale du sitemap doit être de 50 000 URL. Vous pouvez les diviser en plans de site plus petits si vous avez plus d'URL.
– N'incluez pas les identifiants de session de vos URL dans les sitemaps – de cette façon, vous pouvez réduire l'exploration en double des URL données.
– Utilisez des URL cohérentes et complètes – incluez des URL absolues plutôt que relatives.
Comme je l'ai mentionné, assurez-vous que vos plans de site n'incluent que des URL utiles. Vous pouvez effectuer une analyse complète du site Web pour vérifier si des URL trouvées dans une analyse manquent dans votre sitemap.
Ce n'est que la partie émergée de l'iceberg lorsqu'il s'agit d'optimiser votre sitemap - pour plus de recommandations, lisez notre guide ultime sur les sitemaps XML.
Emballer
Les plans de site sont précieux pour chaque site Web.
Pourtant, comme vous pouvez le voir dans les exemples de sites que j'ai répertoriés, de nombreux sites Web populaires n'ont pas de sitemaps optimisés, ce qui a un coût - leur couverture d'index est fortement impactée.
Gardez également à l'esprit que les erreurs de référencement dans les sitemaps peuvent affecter négativement votre budget de crawl, ce qui est crucial si vous avez un site Web de taille moyenne ou grande.
J'espère que vous savez maintenant quelles erreurs éviter et que vous serez sur la bonne voie pour créer un sitemap qui aide Google à explorer votre site plus efficacement, ce qui améliore la couverture de l'index.
