Le guide ultime des sitemaps XML pour le référencement

Publié: 2021-11-29

Un sitemap n'est pas nécessaire pour que votre site fonctionne, mais en ajouter un peut avoir un impact positif sur l'exploration et l'indexation de votre site Web par les moteurs de recherche.

D'un autre côté, un sitemap mal optimisé peut affecter négativement votre budget de crawl et vous exposer au risque que les moteurs de recherche négligent votre précieux contenu.

Ce guide vous aidera à comprendre ce que sont les sitemaps, ce qu'il faut y inclure et pourquoi vous en avez besoin.

Masquer le contenu
1 Qu'est-ce qu'un plan de site
2 Pourquoi les sitemaps sont utiles
3 Qui a besoin d'un sitemap
4 Que faut-il inclure dans un sitemap
5 Composants du sitemap
5.1 Balises <?xml> et <urlset>
5.2 Balise <url>
5.2.1 Balise <loc>
5.2.2 Balise <lastmod>
5.2.3 Balise <changefreq>
5.2.4 Balise <priorité>
5.3 Balise hreflang
6 extensions de plan de site
6.1 Plan du site des images XML
6.2 Plan du site vidéo XML
6.3 Plan du site Google Actualités
7 Fichier d'index de plan de site
8 Comment créer un sitemap ?
8.1 Création manuelle d'un sitemap
8.2 Création automatique d'un sitemap
8.2.1 Sitemaps générés par des CMS ou des plateformes de commerce électronique
8.2.2 Sitemaps générés par les plugins
8.2.3 Outils tiers
8.3 Sitemap statique ou dynamique
9 Soumettre le sitemap aux moteurs de recherche
9.1 Soumettre le plan du site à Google Search Console
9.2 Envoi du plan du site à Bing Webmaster Tools
9.3 Envoi du plan du site à Yandex.Webmaster
10 Liste de contrôle du plan du site

Qu'est-ce qu'un sitemap

Un sitemap XML est un fichier texte qui répertorie les URL de votre site Web. Il sert de carte numérique pour les robots des moteurs de recherche et les aide à trouver les pages précieuses que vous souhaitez que les moteurs de recherche indexent.

Les sitemaps ont leurs propres URL et peuvent être placés n'importe où sur le serveur de votre site. Cependant, ils n'affectent que les descendants du répertoire parent. Donc, pour affecter toutes les pages, vous devez ajouter le sitemap à votre répertoire racine :  

www.exemple.com/sitemap.xml

Le lien vers votre sitemap doit être inclus dans votre fichier robots.txt. Pour cela, utilisez la directive suivante au début ou à la fin de votre fichier :

Plan du site : http://www.example.com/sitemap.xml

Vous n'êtes pas obligé de mettre un sitemap dans le fichier robots.txt, mais cela aidera la plupart des bots à le trouver, y compris les moteurs de recherche autres que Google et Bing. Par exemple, Seznam et Yandex peuvent lire les directives de sitemap à partir de robots.txt.
source : Renata Gwizdak, SEO Junior chez Onely

Pourquoi les sitemaps sont utiles

Avoir un sitemap présente de nombreux avantages pour votre site Web. Avant tout, il aide les moteurs de recherche à trouver du contenu à indexer.

Dans le monde idéal, une architecture de site bien conçue devrait permettre aux utilisateurs et aux moteurs de recherche d'accéder à toutes vos pages sans problème.

Image présentant une liste d'URL vs diagramme avec une vraie structure de pages sur un site web

Malheureusement, la structure d'un site Web peut être compliquée et ne permet pas toujours aux robots des moteurs de recherche de trouver facilement toutes vos pages.

Un sitemap présente les URL dans un format simple, évitant aux robots d'exploration de suivre les liens sur votre site, ce qui permet aux moteurs de recherche de découvrir plus facilement toutes les pages importantes de votre site.

  1. Inclure une page dans un sitemap ne garantit pas qu'elle sera indexée, mais cela peut accélérer le processus d'indexation et le rendre plus fiable de votre côté.
  2. Un sitemap aide à optimiser l'utilisation de votre budget de crawl. Sans cela, les robots des moteurs de recherche doivent explorer l'intégralité de votre site Web pour trouver du contenu frais et indexable. En conséquence, ils pourraient gaspiller le budget de crawl en visitant des pages de mauvaise qualité et en négliger certaines plus précieuses.
  3. Lorsque vous ajoutez un sitemap à Google Search Console, vous pouvez obtenir des commentaires sur les URL de votre sitemap . Donc, s'il y a un problème avec une page et que Google ne peut pas l'explorer, vous le saurez en consultant le rapport de couverture dans Google Search Console, et vous aurez la possibilité d'agir.

Qui a besoin d'un sitemap

Un sitemap XML peut aider n'importe quel site Web, et chaque site Web devrait en avoir un juste pour être sûr. Pourtant, cela peut être plus bénéfique pour certains que pour d'autres.

Un sitemap est un must absolu si :

  • Votre site Web a beaucoup de contenu dynamique. Si vous mettez fréquemment à jour vos pages , il existe un risque que les robots des moteurs de recherche ratent une partie de votre contenu nouveau ou mis à jour.
  • Vous avez un grand site Web (plus de 500 pages). Plus votre site Web est grand, plus le risque que les robots des moteurs de recherche ignorent certaines pages est grand.
  • Vous avez un nouveau site Web. Malheureusement, les nouveaux sites ont généralement peu ou pas de liens externes vers eux. Par conséquent, les crawlers peuvent avoir du mal à les trouver.
  • Vous avez des pages isolées ou mal liées en interne. Si les robots des moteurs de recherche ne peuvent pas découvrir vos pages en suivant les liens, ils ne les trouveront peut-être pas tous.
  • Vous avez beaucoup de contenu rich media (images, vidéos). Les sitemaps vous permettent de fournir des informations supplémentaires sur votre contenu visuel aux moteurs de recherche (par exemple, la durée d'exécution de la vidéo, la matière de l'objet image).

Quoi inclure dans un sitemap

Toutes vos pages ne doivent pas figurer dans votre sitemap. Si vous les mettez toutes, vous risquez de gaspiller votre budget de crawl en crawlant des pages de mauvaise qualité. Cela peut conduire à des pages de haute qualité sur votre site qui ne sont pas indexées car les moteurs de recherche n'ont pas les ressources nécessaires pour les explorer.

C'est pourquoi il est si important de s'assurer que vous n'incluez que des pages indexables avec votre contenu le plus précieux.  

Assurez-vous que les pages que vous incluez dans un sitemap :

  • Répondre par un code 200,
  • Ne sont pas bloqués par robots.txt,
  • N'incluez pas de balise meta robots noindex,
  • Sont la version canonique d'une page.

De plus, voici une liste de pages qui ne devraient pas se retrouver dans votre sitemap :

  • Les pages qui ont un contenu mince ou dupliqué,
  • Pages paginées,
  • URL basées sur des paramètres ou des identifiants de session,
  • Pages de résultats de recherche sur le site,
  • Pages archivées.

Composants du plan de site

Voici un exemple de sitemap avec deux URL :

 <?xml version=”1.0” encoding=”UTF-8”?>
<urlset xmls=” http://www.sitemaps.org/schemas/sitemap/0.9 ”>
<URL>
<loc> https://www.example.com/ page1 </loc>
<lastmod>2021-11-01</lastmod>
<changefreq>hebdomadaire</changefreq>
<priority>0.6</priority>
</url>
<URL>
<loc> https://www.example.com/ page2 </loc>
<lastmod>2021-11-03</lastmod>
<changefreq>hebdomadaire</changefreq>
<priorité>1</priorité>
</url>
</urlset>

Examinons maintenant chaque élément.

Balises <?xml> et <urlset>

Les balises <?xml> et <urlset> sont des composants XML de base. Ils définissent le standard d'encodage et la version XML.

balise <url>

Chaque balise <url> décrit une URL individuelle. À l'intérieur, vous pouvez trouver les balises suivantes :

  • <loc> (obligatoire),
  • <lastmod> (optionnel),
  • <changefreq> (facultatif),
  • <priorité> (facultatif).

balise <loc>

 <loc> https://www.exemple.com/page1 </loc>

La balise <loc> signifie « emplacement » et contient l'URL de la page.

Vous devez vous rappeler de spécifier le protocole du site (HTTP ou HTTPS).

Si vous avez un site Web international et que vous incluez des balises hreflang , c'est également l'endroit pour élaborer. Je couvrirai l'utilisation de la balise hreflang ci-dessous.

Balise <lastmod>

 <lastmod>2020-02-23</lastmod>

<lastmod> signifie « dernière modification » et inclut des informations sur la dernière modification.

Pour les sites de contenu, cette balise aide Google à établir que vous êtes l'éditeur d'origine. Si quelqu'un récupère votre contenu et le publie sur sa page, <lastmod> peut vous aider à rester l'auteur de ce contenu aux yeux de Google.

Remarque : Vous ne devez mettre à jour cette balise que si vous avez apporté des modifications significatives à une page. Si vous essayez de "tromper" Google en lui faisant croire que vous mettez à jour le contenu régulièrement alors que vous ne le faites pas, Google pourrait potentiellement commencer à ignorer cette balise.

Jugez si les changements font une différence pour un utilisateur potentiel. Demandez-vous : serait-il judicieux que quelqu'un revienne sur cette page après que les modifications ont été apportées ? Si tout ce que vous avez fait était de changer les virgules, cela ne vaut probablement pas le risque.

balise <changefreq>

 <changefreq>hebdomadaire</changefreq>

La balise <changefreq> signifie " changer de fréquence ". Il informe les moteurs de recherche de la fréquence à laquelle la page est susceptible de changer.

Il peut prendre les valeurs suivantes :

  • toujours (indique que la page change à chaque accès),
  • toutes les heures,
  • du quotidien,
  • hebdomadaire,
  • mensuel,
  • annuel,
  • jamais (doit être utilisé pour les pages archivées).

Remarque : La balise <changefreq> n'est qu'un indice pour les moteurs de recherche. De plus, certains d'entre eux, dont Google, n'en tiennent pas du tout compte.

balise <priorité>

 <priority>0.6</priority>

La balise de priorité permet directement aux moteurs de recherche de savoir à quel point une page est vitale par rapport aux autres URL de votre site. Attribuez une priorité sur une échelle comprise entre 0,0 et 1,0.

A noter que Google ne tient pas compte de cette balise :

Balise hreflang

Vous pouvez spécifier la version linguistique de vos pages avec une balise hreflang .

Pour ce faire, vous devez inclure la balise sous chaque balise <url> pour représenter chaque version linguistique de la page, y compris elle-même.

 <xhtml:lien
  rel="alternatif"
  hreflang=" code-langue "
  href="url_of_the_language_version">

Voici un exemple de page contenant des versions en anglais et en allemand.

 <URL>
<loc>https://www.example.com/page1/fr</loc>
<xhtml:lien
rel="alternatif"
hreflang="de"
href="https://example.com/page1/de "/>
     <xhtml:lien
rel="alternatif"
hreflang="fr"
href="https://www.example.com/page1/fr "/>
</url>

L'ajout de la balise hreflang à votre sitemap peut aider les moteurs de recherche à présenter la version linguistique la plus appropriée aux utilisateurs. Cependant, la pratique recommandée consiste à ajouter la balise à votre code HTML et dans votre sitemap ou uniquement dans le code HTML.

Bien que mettre des hreflangs dans le sitemap fonctionne, cela les rend également difficiles à vérifier. Tout d'abord, de nombreux outils de référencement sont optimisés pour les balises hreflang en HTML . Deuxièmement, vous pouvez oublier tous les modules complémentaires du navigateur qui vérifieront automatiquement les hreflangs pour vous lors de la visite de la page. Cela ne fonctionne qu'avec les hreflangs en HTML. Si vous mettez le balisage dans le sitemap, toute cette commodité est perdue. Vous devrez explorer vos sitemaps chaque fois que vous souhaitez voir une modification apportée à vos balises hreflang.
source : Artur Bowsza, spécialiste SEO chez Onely

Extensions de plan de site

Vous pouvez ajouter une syntaxe supplémentaire à votre sitemap pour spécifier des informations sur le contenu rich media, notamment :

  • Image,
  • Vidéos,
  • Nouvelles.

Plan du site d'images XML

Vous pouvez ajouter vos images à votre plan de site existant ou créer un plan de site d'image XML distinct.

Un sitemap d'images permet de créer un index organisé d'images sur votre site Web, permettant aux robots des moteurs de recherche de l'explorer plus efficacement. C'est avantageux si :

  • Votre site Web s'appuie sur des images pour générer du trafic (par exemple, un site Web de photos),
  • Les images pourraient être difficiles à trouver autrement (par exemple, des images récupérées par JavaScript).

Vous pouvez ajouter des métadonnées d'image et spécifier des informations supplémentaires comme une légende d'image, un emplacement ou une licence. Vous pouvez en savoir plus sur les balises d'image disponibles dans la documentation de Google.

Les images que vous incluez dans un plan de site d'images ne doivent pas nécessairement appartenir au même domaine que votre site Web. Un CDN convient s'il est vérifié dans Google Search Console.

Plan du site vidéo XML

Tout comme Image Sitemap, vous pouvez ajouter vos vidéos à votre sitemap existant ou créer un sitemap vidéo XML distinct.

Vous pouvez fournir des informations supplémentaires aux robots des moteurs de recherche sur vos vidéos pour les aider à trouver et à mieux comprendre votre contenu vidéo, en particulier si le contenu serait difficile à découvrir autrement.

Par exemple, vous pouvez ajouter la durée de la vidéo et spécifier si elle est adaptée aux familles. Vous pouvez en savoir plus sur les balises vidéo disponibles dans la documentation de Google.

Plan du site Google Actualités

Google News Sitemap contient une liste d'articles publiés sur votre site et aide Google à découvrir plus rapidement de nouveaux articles.

Vous pouvez répertorier jusqu'à 1 000 URL dans le sitemap de Google Actualités et mettre à jour les articles du sitemap dès qu'ils sont publiés.

Vous pouvez trouver les balises spécifiques aux actualités disponibles dans la documentation de Google.

Fichier d'index du plan du site

Les sitemaps peuvent contenir 50 000 URL. Par conséquent, si vous souhaitez inclure plus d'URL, vous devez créer plusieurs sitemaps.

Si vous avez plusieurs sitemaps, vous pouvez créer un fichier d'index de sitemaps pour soumettre tous vos sitemaps en même temps. Voici un exemple de fichier d'index de sitemaps avec deux sitemaps :

 <?xml version="1.0" encoding="UTF-8" ?>
<sitemapindex xmlns=" http://www.sitemaps.org/schemas/sitemap/0.9 ">
<plan du site>
<loc> http://www.example.com/sitemap1.xml </loc>
</sitemap>
<plan du site>
<loc> http://www.example.com/sitemap2.xml </loc>
</sitemap>
</sitemapindex>

La balise Sitemap Index utilise les balises suivantes :

  • Balise d'en-tête XML précisant la version et la norme d'encodage,
  • sitemapindex – balise parente entourant le fichier (équivalente à la balise < urlset> ),
  • sitemap – balise parent qui inclut chaque fichier de sitemap (équivalent à la balise <url> ),
  • loc – balise de localisation spécifiant l'URL d'un sitemap.

Comment créer un sitemap ?

Vous pouvez créer votre sitemap manuellement ou automatiquement .

Création manuelle d'un sitemap

Vous pouvez choisir de créer un sitemap manuellement dans des éditeurs tels que Windows NotePad, TextEdit ou Visual Studio Code.

De cette façon, vous pouvez le personnaliser à votre guise, mais je le recommande uniquement pour les petits sites Web avec moins de pages. Avec des sites Web plus grands et des centaines de pages, ce processus prendrait beaucoup de temps et serait sujet aux erreurs.

Création automatique d'un sitemap

Avec un site Web plus grand avec des centaines de pages, il est recommandé de créer automatiquement un sitemap. Il peut être généré en utilisant :

  • Fonctionnalités natives des plateformes CMS ou eCommerce,
  • Plugins ajoutés,
  • Outils tiers.

Sitemaps générés par des plateformes CMS ou eCommerce

Certaines plateformes de CMS ou de commerce électronique, comme Wix ou Shopify, génèrent automatiquement des sitemaps.

Vous pouvez trouver votre sitemap généré dans le répertoire racine de votre site Web.

Sitemaps générés par des plugins

Si vous utilisez un CMS comme WordPress, vous aurez peut-être besoin d'un plugin pour générer un sitemap. Je recommande d'utiliser Yoast SEO, car cette extension facilite le processus et comprend de nombreuses autres fonctionnalités de référencement.

Outils tiers

De nombreux outils tiers peuvent créer un sitemap pour vous, comme Screaming Frog ou XML-Sitemaps.com. Vous devez d'abord le télécharger, mais après cela, c'est aussi simple que de fournir une URL vers votre page d'accueil.

Sitemap statique ou dynamique

Un sitemap peut être généré de manière statique ou dynamique .

Un sitemap statique est un instantané du contenu indexable de votre site Web pris lors de la génération du sitemap. Vous pouvez utiliser un robot d'exploration, par exemple, Screaming Frog, pour créer facilement un sitemap statique.

L'inconvénient est que les sitemaps statiques doivent être mis à jour chaque fois qu'un changement se produit sur votre site Web. Par conséquent, si vous ajoutez ou supprimez régulièrement des pages, un plan de site XML statique deviendra bientôt obsolète et ne remplira pas son objectif.

Un sitemap dynamique est créé à chaque fois qu'il est demandé. Cela signifie qu'il reste à jour et reflète l'état actuel de votre site Web.

Les sitemaps dynamiques sont avantageux si votre contenu change fréquemment. Un exemple peut être un site Web de commerce électronique où les produits entrent et sortent fréquemment de stock.

Pour créer un sitemap dynamique, vous pourriez avoir besoin de l'aide de développeurs ou utiliser des plugins qui offrent cette option.

Soumettre le sitemap aux moteurs de recherche

Vous pouvez envoyer un ping aux moteurs de recherche et leur faire savoir que vous avez un nouveau sitemap ou que vous avez apporté des modifications au précédent.

Google ne vérifie pas un sitemap chaque fois qu'un site est exploré ; un sitemap n'est vérifié que la première fois que nous le remarquons, et ensuite uniquement lorsque vous nous envoyez un ping pour nous faire savoir qu'il a changé. Alertez Google à propos d'un sitemap uniquement lorsqu'il est nouveau ou mis à jour ; ne soumettez pas ou ne pingez pas plusieurs fois des sitemaps inchangés.
source : Google

Envoi du sitemap à Google Search Console

Connectez-vous à votre compte Google Search Console. Ensuite, accédez à Index > Sitemaps dans la barre latérale.

Capture d'écran de Google Search Console avec l'option Sitemaps

Remplissez l'URL de votre sitemap dans le champ et cliquez sur "Soumettre".

Capture d'écran de Google Search Console avec une option pour ajouter un sitemap

Google Search Console vous indiquera s'il y a des erreurs dans votre sitemap.

Capture d'écran des sitempas soumis dans Google Search Console

Envoi du plan du site à Bing Webmaster Tools

Si vous êtes déjà vérifié dans Google Search Console, cette étape est un jeu d'enfant. Accédez à Bing Webmaster Tools et importez vos données.

Capture d'écran d'une option permettant d'importer des sitemaps de Google Search Console vers Bing Webmaster Tools

Si vous n'avez pas encore vérifié dans Google Search Console, vous pouvez accéder aux "Sitemaps" dans la barre latérale. Et puis cliquez sur le bouton "Soumettre le plan du site" en haut de la page.

Capture d'écran de Bing Webmaster Tools avec une option Sitemaps dans la barre latérale

Depuis que Yahoo et Bing ont fusionné, l'ajout d'un sitemap à Bing Webmaster Tools garantit également qu'il est soumis à Yahoo.

Envoi du plan du site à Yandex.Webmaster

Pour soumettre un sitemap à Yandex, vous devez :

  1. Accédez à Yandex Passport et connectez-vous.
  2. Accédez à la section "Fichiers Sitemap".
  3. Saisissez l'adresse du sitemap XML.
  4. Cliquez sur le bouton "Ajouter".

Liste de contrôle du plan du site

  • Assurez-vous que votre sitemap ne contient pas plus de 50 000 URL. Si vous en avez plus, divisez-le en plans de site plus petits,
  • Inclure uniquement les pages indexables,
  • Référencez le sitemap dans votre fichier robots.txt,
  • Utilisez des URL cohérentes et complètes - vérifiez si vous ne manquez pas le protocole www ou HTTP/HTTPS dans les URL,
  • Si vous avez du contenu multimédia supplémentaire (images, vidéos, actualités), utilisez les extensions de sitemap,
  • Si vous avez des versions linguistiques différentes, vous pouvez les spécifier dans votre sitemap, mais aussi utiliser la balise hreflang dans votre HTML,
  • Ne vous concentrez pas trop sur les balises changefreq et de priorité , car les moteurs de recherche ne les prennent pas toujours en compte.