Guide ultime de la balise Noindex pour le référencement

Publié: 2022-02-14

Empêcher certaines pages d'apparaître dans les résultats de recherche fait partie intégrante de votre stratégie d'indexation.

L'une des méthodes cruciales pour contrôler l'indexation de votre site est la directive noindex dans les balises meta robots ou x-robots-tags.

La balise noindex peut être utilisée pour indiquer aux bots qu'une page ne doit pas être indexée lorsque vous souhaitez toujours qu'ils explorent la page donnée et suivent les liens qu'elle contient.

De mauvaises implémentations de la directive noindex peuvent entraîner la suppression effective de votre contenu de l'index de Google.

Assurez-vous que cela ne se produise pas - suivez mon guide pour savoir quand utiliser la balise noindex, comment l'implémenter et les meilleures pratiques à suivre.

Masquer le contenu

1 Qu'est-ce que la balise noindex ?

1.1 Pas d'index contre pas de suivi

2 Quand utiliser la balise noindex ?

3 Comment implémenter la balise noindex

3.1 Insérer la balise noindex dans le code HTML d'une page

3.1.1 Avantages et inconvénients des balises méta robots

3.2 Ajouter la balise noindex aux en-têtes HTTP

3.2.1 Serveur Apache

3.2.2 Serveur Nginx

3.2.3 Avantages et inconvénients de l'utilisation des en-têtes HTTP

3.3 Comment pouvez-vous vérifier votre implémentation de la balise noindex ?

4 Plus d'informations sur l'utilisation de la balise noindex

5 Comparaison des balises noindex, des fichiers robots.txt et des balises canoniques

5.1 Fichiers robots.txt

5.2 Balises canoniques

6 Conclusion

Qu'est-ce que la balise noindex ?

La balise noindex est une balise HTML utilisée pour contrôler la façon dont les bots traitent une page ou un fichier donné sur votre site et les empêcher d'indexer cette page ou ce fichier.

Vous pouvez dire aux moteurs de recherche de ne pas indexer une page en ajoutant une directive noindex dans une balise meta robots - ajoutez simplement le code suivant à la section <head> du HTML :

 <meta name=”robots” content=”noindex”>

Alternativement, la balise noindex peut être ajoutée en tant que balise x-robots dans un en-tête HTTP :

 balise x-robots : noindex

Lorsqu'un robot de moteur de recherche tel que Googlebot parcourt une page avec la balise noindex, il ne l'indexe pas. Si la page a été précédemment indexée et que la balise a été ajoutée ultérieurement, Google la supprimera des résultats de recherche, même si d'autres sites y renvoient.

Généralement, les robots des moteurs de recherche ne sont pas tenus de suivre les méta-directives car elles servent de suggestions plutôt que de règles qu'ils doivent respecter. Certains robots d'exploration des moteurs de recherche peuvent interpréter différemment les méta-valeurs des robots.

Cependant, la plupart des robots des moteurs de recherche - comme Googlebot - obéissent à la directive noindex.

Pas d'index vs pas de suivi

Il existe d'autres directives de méta-robots prises en charge par Google - les plus populaires incluent nofollow et follow. Cependant, la balise de suivi est le paramètre par défaut si aucune balise méta de robot n'est ajoutée, Google la considère donc inutile .

La balise nofollow empêche les moteurs de recherche d'explorer les liens d'une page. Par conséquent, les signaux de classement de cette page ne seront pas transmis aux pages auxquelles elle renvoie.

Il est possible d'utiliser la directive noindex seule, mais elle peut également être combinée avec d'autres directives. Par exemple, vous pouvez ajouter à la fois une balise noindex et nofollow si vous ne voulez pas que les robots des moteurs de recherche indexent une page et suivent les liens qu'elle contient.

Si vous avez implémenté une balise noindex, mais que votre page apparaît toujours dans les résultats de recherche, il est probable que Google n'ait tout simplement pas exploré la page depuis l'ajout de la balise. Pour demander à Google de réexplorer une page, vous pouvez utiliser l' outil d'inspection d'URL.

Quand utiliser la balise noindex ?

Vous devez utiliser la balise noindex pour empêcher les pages d'être indexées par Google.

Il est crucial de rendre les pages moins importantes non indexables, car Google ne dispose pas de ressources suffisantes pour explorer et indexer chaque page qu'il trouve sur le Web. Dans le même temps, vous devez identifier vos pages de valeur qui doivent être indexées et prioriser leur optimisation.

Voyons sur quels types de pages vous devez implémenter la balise noindex pour les rendre non indexables.

Placez la balise noindex sur :

Pages pour les produits en rupture de stock et qui ne seront plus disponibles.
Pages au contenu dupliqué, souvent dominantes sur les sites de commerce électronique. Il est également recommandé d' utiliser des balises canoniques pour diriger les moteurs de recherche vers les versions principales de vos pages et éviter les problèmes de contenu en double.
Les pages qui ne devraient pas être accessibles dans les résultats de recherche, par exemple, les environnements de staging ou les pages protégées par mot de passe.
Pages précieuses pour les moteurs de recherche mais pas pour les utilisateurs - comme les pages contenant des liens qui aident les bots à découvrir d'autres pages.

Rendre les pages non indexables doit être fait dans le cadre d'une stratégie d'indexation bien établie.

Vous ne devez jamais inclure de noindex sur des pages importantes, telles que :

Les pages de produits les plus populaires,
Articles de blog (sauf s'ils sont périmés),
Pages A propos de moi et Contact,
Pages décrivant les services que vous proposez.

En règle générale, ne placez jamais de noindex sur des pages dont vous pensez générer un trafic organique important.

Comment implémenter la balise noindex

La balise noindex peut être placée dans le code HTML d'un site ou dans les en-têtes de réponse HTTP.

Certains plugins CMS comme Yoast vous permettent de ne pas indexer automatiquement les pages que vous publiez.

Passons en revue les deux principales méthodes de mise en œuvre étape par étape et analysons leurs avantages et leurs inconvénients.

Insérer la balise noindex dans le code HTML d'une page

La balise noindex peut être implémentée en tant que balise méta robots dans le <head> du code HTML d'une page.

Les balises méta des robots sont des codes utilisés pour contrôler l'exploration et l'indexation d'un site Web. Les utilisateurs ne peuvent pas les voir, mais les bots les trouvent en parcourant une page.

Voici comment implémenter le code :

 <!DOCTYPE html>
<html>
<tête>
<meta name="robots" content="noindex" >
</head>
<corps>
</body>
</html>

Précisons comment une balise meta robots est structurée.

À l'intérieur d'une balise meta, il y a des paires d'attributs et de valeurs :

 <meta attribut=”valeur”>

La balise Meta Robots possède deux attributs :

name – spécifie le nom des robots des moteurs de recherche,
content – contient des directives pour les bots.

Les deux attributs nécessitent des valeurs différentes en fonction de ce que vous voulez que les bots fassent. En outre, les attributs de nom et de contenu ne sont pas sensibles à la casse.

L'attribut name prendra généralement la valeur de "robots", indiquant qu'une directive cible tous les bots.

Il est également possible d'utiliser le nom d'un bot spécifique à la place, tel que "googlebot", bien que vous le rencontriez beaucoup moins souvent. Si vous souhaitez vous adresser à différents robots, vous devrez créer des balises méta distinctes pour chacun d'eux.

Gardez à l'esprit que les moteurs de recherche ont différents robots d'exploration à des fins différentes - consultez la liste des robots d'exploration de Google.

Pendant ce temps, l'attribut content contient la directive que les bots doivent suivre. Dans notre cas, il s'agit de "noindex". Vous pouvez y mettre plusieurs valeurs et séparer les attributs par des virgules.

Avantages et inconvénients des balises méta robots

La méthode HTML est plus facile à implémenter et à modifier que la méthode d'en-tête HTTP. Il ne vous oblige pas non plus à avoir accès à votre serveur.

Cependant, l'implémentation de la balise noindex dans votre HTML peut prendre du temps - vous devrez l'ajouter manuellement à chaque page que vous souhaitez noindexer.

Ajouter la balise noindex aux en-têtes HTTP

Une autre solution consiste à spécifier la directive noindex dans une balise x-robots.

Il s'agit d'un élément d'une réponse d' en-tête HTTP . Les en-têtes HTTP sont utilisés pour la communication entre un serveur et un client (un navigateur ou un robot de moteur de recherche).

Vous pouvez le configurer sur votre serveur Web HTTP. Le code sera légèrement différent selon le serveur que vous utilisez, comme Apache, Nginx ou autres.

Voici un exemple de ce à quoi peut ressembler une réponse HTTP avec une balise x-robots :

 HTTP/1.1 200 OK
(…)
balise x-robots : noindex
(…)

Serveur Apache

Si vous avez un serveur basé sur Apache et que vous souhaitez ne pas indexer tous les fichiers qui se terminent par « .pdf », vous devez ajouter la directive au fichier .htaccess .

Voici l exemple de code:

 <Fichiers ~ "\.pdf$">
Ensemble d'en-tête x-robots-tag "noindex"
</Fichiers>

Serveur Nginx

Si vous avez un serveur basé sur Nginx , implémentez la directive dans le fichier .conf :

 emplacement ~* \.pdf$ {
add_header x-robots-tag "noindex" ;
}

Avantages et inconvénients de l'utilisation des en-têtes HTTP

Un avantage significatif de l'utilisation de noindex dans les en-têtes HTTP est que vous pouvez l'utiliser sur des documents Web qui ne sont pas des pages HTML , tels que des fichiers PDF, des vidéos ou des images. De plus, cette méthode vous permet de cibler une partie particulière de la page.

De plus, x-robots-tag prend en charge l'utilisation d'expressions régulières ( RegEx ). En d'autres termes, vous pouvez cibler les pages qui ne doivent pas être indexées en précisant ce qu'elles ont en commun. Par exemple, vous pouvez cibler des pages avec des URL contenant des paramètres ou des symboles spécifiques.

D'autre part, vous devez avoir accès à votre serveur pour implémenter une balise x-robots.

L'ajout de la balise nécessite également des compétences techniques et est plus compliqué que d'ajouter les balises méta des robots au code HTML d'un site Web.

Comment pouvez-vous vérifier votre implémentation de la balise noindex ?

Si vous souhaitez vérifier si les méta-directives noindex ou d'autres robots sont implémentées, vous pouvez le faire en fonction de la manière dont elles ont été ajoutées à une page.

Ainsi, si la balise noindex a été ajoutée au code HTML d'une page, vous pouvez vérifier son code source, tandis que pour les en-têtes HTTP, vous pouvez utiliser l' option Inspecter dans Chrome . Ces outils vous montreront quelles directives ont été reconnues sur une page donnée.

D'autres options incluent la saisie d'une URL dans l' outil d'inspection d'URL de Google Search Console ou l'utilisation de l' extension Link Redirect Trace .

Plus d'informations sur l'utilisation de la balise noindex

Voici quelques directives supplémentaires sur l'utilisation de la balise noindex et des détails sur ses caractéristiques :

Chaque fois que vous n'incluez pas noindex dans votre code, l'option par défaut est que les bots peuvent indexer votre page .
Faites attention aux erreurs dans le code, telles que l'inclusion de virgules aux bons endroits - les bots ne comprendront pas vos commandes si la syntaxe est incorrecte.
Ajoutez les balises dans votre code HTML ou les en-têtes de réponse HTTP, mais pas les deux. Le faire peut avoir un impact principalement négatif si les directives des endroits respectifs se contredisent. Dans ce cas, Googlebot choisira la directive qui limite l'indexation.
Vous pouvez utiliser une directive noimageindex qui fonctionnera comme noindex mais empêchera uniquement l'indexation des images d'une page donnée.
Après un certain temps, les bots commencent à voir noindex comme nofollow. De nombreuses personnes désactivent l'indexation des pages à l'aide de noindex mais la combinent avec la directive follow pour s'assurer que les robots explorent toujours les liens sur une page. Mais Google a expliqué qu'une directive noindex, follow sera éventuellement traitée comme noindex, nofollow car à un moment donné, ils arrêtent d'explorer les liens sur les pages non indexées. Par conséquent, les pages de destination des liens peuvent ne pas être indexées et peuvent recevoir des signaux de classement diminués, ce qui peut affecter négativement leur classement.
N'utilisez pas noindex dans les fichiers robots.txt. Bien que cette règle et certaines autres ne soient pas officiellement prises en charge, les robots des moteurs de recherche ont suivi les directives noindex dans les fichiers robots.txt. Cependant, en septembre 2019, Google a annoncé qu'il avait retiré le code qui gérait les règles non prises en charge et non publiées dans les fichiers robots.txt - tels que noindex - en septembre 2019.

Comparaison des balises noindex, des fichiers robots.txt et des balises canoniques

Les balises noindex, les fichiers robots.txt et les balises canoniques sont liées - elles peuvent être utilisées pour contrôler l'exploration et/ou l'indexation des pages .

Cependant, ils ont certaines caractéristiques distinctives qui les rendent adaptés à différentes situations.

Nous avons établi que les balises noindex contrôlent si des pages spécifiques d'un site Web doivent être indexées, et elles fonctionnent au niveau de la page.

Regardons comment cela se compare aux fichiers robots.txt et aux balises canoniques.

Fichiers robots.txt

Les fichiers robots.txt peuvent être utilisés pour contrôler la manière dont les robots des moteurs de recherche explorent certaines parties de votre site Web au niveau du répertoire.

Plus précisément, les fichiers robots.txt incluent des directives pour les robots des moteurs de recherche, se concentrant sur "l'interdiction" ou "l'autorisation" de leur comportement. Si les bots suivent la directive, ils n'exploreront pas les pages non autorisées et les pages ne seront pas indexées.

Les directives robots.txt sont largement utilisées pour économiser le budget de crawl d'un site Web.

Soyez prudent lorsque vous implémentez des balises noindex et configurez les règles dans les fichiers robots.txt. Pour qu'une directive noindex soit efficace, la page donnée doit être disponible pour l'exploration, ce qui signifie qu'elle ne peut pas être bloquée par le fichier robots.txt.

Si le crawler ne peut pas accéder à la page, il ne verra pas la balise noindex et ne la respectera pas. La page peut ensuite être explorée et apparaître dans les résultats de recherche, par exemple si d'autres pages y renvoient.

Pour noindexer une page, autorisez son crawling dans robots.txt et utilisez une balise meta noindex pour bloquer son indexation – Googlebot suivra alors la directive noindex.

Balises canoniques

Les balises canoniques sont des éléments HTML qui informent les moteurs de recherche quelle page parmi plusieurs similaires est la version principale et doit être indexée. Ils sont placés sur des pages secondaires et spécifient l'URL canonique – par conséquent, ces pages secondaires ne doivent pas être incluses dans l'index.

Les balises canoniques peuvent limiter l'indexation des pages qui ne sont pas canoniques, mais Google ne respectera pas toujours ces balises . Par exemple, si Google trouve plus de liens vers une autre page, il peut la considérer comme plus importante que l'URL canonique spécifiée et la considérer comme la version principale.

De plus, les balises canoniques ne peuvent être découvertes par les robots que lors de l'exploration. Contrairement aux fichiers robots.txt, ils ne peuvent pas être utilisés pour empêcher l'exploration d'une page.

Une différence essentielle entre les balises canoniques et les balises noindex est que les pages canonisées regroupent les signaux de classement sous une seule URL. Pendant ce temps, les pages non indexées ne transmettront pas les signaux de classement , ce qui est vital pour les liens internes - elles ne transmettront pas les signaux de classement aux URL auxquelles elles renvoient.

Emballer

Rendre les pages de mauvaise qualité non indexables est l'une des meilleures pratiques SEO pour optimiser votre stratégie d'indexation - et l'utilisation de la balise meta noindex est l'un des moyens les plus optimaux de garder une page hors de l'index de Google .

En utilisant la balise, vous pouvez bloquer l'indexation des pages sans importance et aider ensuite les robots des moteurs de recherche à se concentrer sur votre contenu le plus précieux.

L'exploration et l'indexation efficaces de votre site Web sont essentielles pour tirer le meilleur parti du trafic organique que les pages de valeur peuvent générer sur votre site. Pour en savoir plus sur le processus d'indexation, assurez-vous de lire notre guide d'indexation SEO ensuite !