Comment créer un bon fichier Robots.txt pour votre site

Publié: 2018-07-09

Robots.txt - C'est plus un sujet technique. Le fichier Robots.txt pourrait être un nouveau terme pour la plupart des gens. En fait, c'est un petit texte qui décide de l'avenir de votre site Web.

Comment est-ce possible?

C'est possible. Ce petit texte peut contrôler le trafic de votre site. Si vous l'entrez comme erroné, votre page pourrait ne pas figurer dans les résultats de la recherche. Il est donc important de savoir comment l'utiliser correctement.

C'est l'une des méthodes de référencement simples et les plus faciles que vous pouvez appliquer à votre site. Aucune connaissance technique n'est nécessaire pour contrôler la puissance de robots.txt. Si vous pouvez trouver le code source, c'est facile.

De plus, placer robots.txt n'importe où sur le site n'aidera pas. Pour cela, vous devez d'abord trouver le code source et l'y conserver. Ensuite, seul le robot d'exploration du Web sera en mesure d'identifier votre instruction et d'agir en conséquence.

De cet article, vous obtiendrez la réponse aux questions suivantes:

Qu'est-ce qu'un fichier robots.txt ?
Utilisations du fichier robot.txt
Comment ça marche?
Comment le créer ?
Importance du fichier robots.txt ?
Que mettre dans ce dossier ?

Tout d'abord, laissez-moi vous expliquer le terme

Qu'est-ce qu'un fichier Robots.txt ?

Robots.txt est un fichier texte qui se situe dans le répertoire racine d'un site. Il contrôle les robots d'exploration et les araignées des moteurs de recherche lors de la visite d'un site Web particulier. Cela signifie qu'il indique au moteur de recherche les pages du site Web qu'il souhaite visiter ou non.

Tous les propriétaires de sites Web essaient de se faire remarquer de nos jours. Vous pouvez le faire en utilisant ce petit texte. Il est utile d'inclure ou d'exclure une page particulière du résultat de la recherche. Vous aurez une idée à ce sujet après avoir lu cet article.

Lorsqu'un crawler accède à un site, la première chose qu'il demande est le fichier 'robots.txt'. S'il existe un tel fichier, il passe aux instructions d'indexation pour la suite de la procédure.

Si vous n'avez pas ajouté de fichier robots.txt, le moteur de recherche peut facilement explorer votre site n'importe où et indexer tout ce qu'il trouve sur votre site. Mais c'est une bonne pratique de spécifier votre sitemap. Il permet au moteur de recherche de trouver facilement de nouveaux contenus sans aucun délai.

Utilisations de robots.txt :

Vous pouvez éviter les pages en double en utilisant ce texte
Si vous ne souhaitez pas que le moteur de recherche indexe votre page de résultats de recherche interne, vous pouvez utiliser ce texte
Utilisez-le si vous ne souhaitez pas que les moteurs de recherche indexent certaines zones de votre page Web ou l'ensemble du site.
Vous pouvez éviter d'indexer certaines images ou certains fichiers
Vous pouvez naviguer dans le moteur de recherche vers votre sitemap
Vous pouvez utiliser un délai de crawl afin d'éviter que les serveurs ne soient surchargés lorsque les crawlers chargent plusieurs contenus en même temps.

N'utilisez robots.txt que lorsque vous avez besoin de contrôler l'accès à une page particulière. S'il n'y a rien de tel, vous n'avez pas à l'utiliser

Comment fonctionne le fichier Robots.txt :

Un moteur de recherche a deux fonctions principales.

Explorer le site Web pour découvrir le contenu
Indexer ce contenu pour servir les chercheurs qui recherchent une information particulière

Le moteur de recherche rampe d'un site à un autre site. Ainsi, il rampe sur des milliards de sites. Le processus d'exploration est également connu sous le nom de spidering.

Après être arrivé sur un site Web et avant de passer d'un site à un autre, le robot de recherche recherche le fichier robots.txt. S'il en trouve un, le robot d'exploration le lit d'abord avant de continuer sur ce site. Ce fichier robots.txt contient des instructions pour un robot d'exploration Web. Il dit s'il faut continuer ou non. Si le robot n'a pas pu trouver d'instructions ou d'informations sur ce qu'il faut faire, il poursuivra son activité.

Où va le fichier robots.txt ?

Robots.txt est la première chose qu'un WebCrawler ou un moteur de recherche regarde lorsqu'il visite un site. Il ne regarde que dans le répertoire principal. S'il n'y est pas trouvé, le robot d'exploration procède à tout dans le site. Il est donc indispensable de placer un fichier robot.txt dans le répertoire principal ou domaine racine .

Pour expliquer cela, prenons un exemple de wordpress.com. Si l'agent utilisateur visite www.wordpress.com/robots.txt et s'il n'y a pas de fichier robot, il suppose que le site ne contient aucune instruction. Ainsi, il commence à indexer chacune des pages. l'agent utilisateur Si le fichier robot existe sur www.wordpress.com/index/robots.text ou www.wordpress.com/homepage/robots.txt ne le trouvera pas. Il sera traité comme un site sans robot.txt.

Étapes pour créer un fichier Robots.txt ?

Un fichier robots.txt contient deux champs ; une ligne contient un nom d'agent utilisateur ou plusieurs lignes avec la directive. La deuxième ligne indique l'action que le robot d'exploration doit effectuer sur un site Web. Voyons comment créer un fichier robots.txt

La première étape consiste à ouvrir un nouveau fichier texte. Vous pouvez utiliser le Bloc-notes pour PC et l'éditeur de texte pour Mac et l'enregistrer en tant que fichier texte joint
Téléchargez-le dans votre répertoire racine. Il s'agit d'un dossier de niveau racine appelé 'htdocs' ou 'www'. Cela vient donc juste après votre nom de domaine.
Si un sous-domaine existe, créez-le pour chaque sous-domaine

Voici le format de base du robots.txt

Agent utilisateur : [nom de l'agent utilisateur]

Disallow : [nom de la chaîne d'URL à ne pas explorer]

Ceci est essentiellement connu sous le nom de fichier robots.txt. Il peut y avoir plusieurs lignes d'utilisateurs et directives. Il peut s'agir d'autoriser, d'interdire, de retarder l'exploration, etc.

Termes techniques dans robots.txt :

Il existe des mots courants liés au langage robots.txt. Ils sont connus sous le nom de syntaxe robots.txt. Cinq mots principaux sont couramment utilisés dans le fichier robots.txt. Elles sont:

Agent utilisateur :

L'agent utilisateur est le robot d'exploration Web ou le moteur de recherche auquel vous donnez des instructions.

Refuser:

Cette commande donne l'instruction au robot de ne pas explorer une URL particulière. Chaque URL ne peut utiliser qu'une seule ligne d'interdiction.

Permettre:

Cette commande est utilisée uniquement pour Google Bot. En donnant cette commande, Google bot peut accéder à ce sous-dossier ou à cette page même si sa page parente n'est pas autorisée.

Délai d'exploration :

Il indique le temps d'attente avant le chargement et le crawling du contenu de la page. Cela ne fonctionnera pas pour Google bot mais vous pouvez définir l'heure pour la console de recherche Google

Que faut-il inclure dans un fichier Robots.txt ?

Robot.txt donne simplement une instruction aux robots Web pour accéder ou ne pas accéder à quoi que ce soit. Si vous ne souhaitez pas montrer de page Web aux utilisateurs, vous pouvez donner des instructions au robot d'exploration à l'aide du fichier robots.txt. Sinon, vous pouvez le protéger à l'aide d'un mot de passe. Ainsi, vous pouvez masquer l'emplacement de n'importe quelle page d'administration ou privée. Il empêche l'exploration des robots vers ces pages privées.

Voyons maintenant comment le faire avec quelques exemples

Autorisez tout et soumettez le sitemap :

C'est une bonne option pour tous les sites. Cela permet au moteur de recherche de ramper partout et d'indexer toutes les données. Il permet également d'afficher l'emplacement XML afin que le robot d'exploration puisse facilement accéder aux nouvelles pages

Agent utilisateur:*

Permettre: /

#référence du plan du site

Plan du site : www.wordpress.com/sitemap.xml

Autoriser tout sauf un sous-répertoire

Parfois, il y aura une zone de votre page que vous ne souhaitez pas afficher dans les résultats de recherche. Il peut s'agir d'une image, d'une zone de paiement, de fichiers, d'une section d'audit, etc. Vous pouvez l'interdire

Agent utilisateur: *

Permettre: /

# sous-répertoire interdit

Interdire : /checkout/

Interdire : /images/

Interdire :/rapport d'audit/

Autoriser tout sauf certains fichiers :-

Parfois, vous voudrez peut-être afficher des médias ou une image sur votre site Web ou afficher des documents. Mais vous ne voulez pas qu'ils apparaissent dans les résultats de recherche. Vous pouvez masquer les fichiers animés, les gifs, les fichiers pdf ou PHP comme indiqué ci-dessous

Agent utilisateur:*

Permettre: /

#Interdire les types de fichiers

Interdire : /*.gif$

Interdire : /*.pdf$

Interdire : /*.php$

Autoriser tout sauf certaines pages Web : -

Parfois, vous voudrez peut-être masquer certaines pages qui ne conviennent pas à la lecture, cela peut être n'importe quoi dans vos termes et conditions ou tout sujet sensible que vous ne voulez pas montrer aux autres. Vous pouvez les masquer comme suit

Agent utilisateur: *

Permettre: /

#interdire les pages Web

Interdire : /terms.html

Interdire :/liste-secrète-de-contacts.php

Autoriser tout sauf certains modèles d'URL

Parfois, vous souhaiterez peut-être interdire certains modèles d'URL. Il peut s'agir d'une page de test, de n'importe quelle page de recherche interne, etc.

Agent utilisateur: *

Permettre: /

#disallow URL patterns

Interdire : /*search=

Interdire : /*test.php$

Dans ces conditions ci-dessus, vous avez trouvé de nombreux symboles et caractères. Ici, j'explique ce que chacun d'eux signifie réellement

Le symbole étoile (*) représente n'importe quel nombre de caractères ou un seul caractère.
Le symbole du dollar ($) indique la fin de l'URL. Si vous avez oublié de le mettre, vous bloquerez accidentellement un grand nombre d'URL

Remarque : – veillez à ne pas interdire tout le domaine. Parfois, vous pouvez voir une commande comme celle-ci

Agent utilisateur: *

Interdire : /

Savez-vous ce que cela signifie? Vous dites au moteur de recherche d'interdire l'ensemble de votre domaine. Ainsi, il n'indexera aucune de vos pages Web et vous ne pourrez figurer dans aucun résultat de recherche. Attention donc à ne pas le mettre accidentellement.

Essais finaux :

Il est important de vérifier si votre fichier robots.txt fonctionne ou non. Même si vous l'avez bien fait, une vérification appropriée est recommandée

Vous pouvez utiliser l'outil robots.txt de Google pour savoir si tout va bien avec votre fichier. Tout d'abord, vous devez enregistrer le site sur lequel vous appliquez le fichier robots.txt dans l'outil Google pour les webmasters. Après vous être enregistré, connectez-vous à cet outil et sélectionnez votre site particulier. Maintenant, Google vous affichera toutes les notes pour montrer l'erreur.

Comment vérifier si votre site possède un fichier robot.txt ?

Vous pouvez vérifier cela facilement. Prenons l'exemple précédent de word press. Tapez l'adresse de votre site Web www.wordpress.com et ajoutez-y /robots.txt. c'est-à-dire, www.wordpress.com/robots.txt. Maintenant, vous pouvez voir si votre site a un fichier roborts.txt ou non.

Autres conseils rapides sur robot.txt :

Si vous placez robots.txt dans le répertoire de niveau supérieur d'un site Web, il est facile de se faire remarquer
Si vous avez interdit un sous-répertoire, tout fichier ou page Web dans le sous-répertoire sera interdit
Robots.txt est sensible à la casse. Vous devez le saisir en tant que robots.txt. Sinon, ça ne marchera pas
Certains agents utilisateurs peuvent ignorer votre fichier robots.txt. Certains robots d'exploration tels que les grattoirs d'e-mails ou les robots malveillants, etc. peuvent ignorer ce fichier
/robots.txt est accessible au public. Il est donc préférable de ne cacher aucune information d'utilisateur privé. Si vous ajoutez /robots.txt à la fin de n'importe quel domaine racine, vous pouvez voir les pages que vous souhaitez explorer ou ne souhaitez pas explorer, s'il contient un fichier robot.txt.
Il faut plusieurs jours à un moteur de recherche pour identifier une URL non autorisée et la supprimer de son index
Chaque sous-domaine d'une racine utilise un fichier robots.txt distinct. Par exemple, blog.wordpress.com et wordpress.com utilisent des fichiers robots.txt distincts. c'est-à-dire blog.wordpress.com/robots.txt et wordpress.com/robots.txt
Il est préférable d'ajouter l'emplacement à n'importe quel sitemap au bas d'un fichier robots.txt

Avez-vous une idée du concept ? C'est simple, non ? Vous pouvez l'appliquer à votre site et améliorer ses performances. Il n'est pas nécessaire de tout montrer sur votre site. Vous pouvez masquer vos pages d'administration ou vos termes et conditions, etc. aux utilisateurs. Le fichier Robots.txt vous y aidera. Utilisez-le à bon escient pour indiquer le plan du site et accélérer l'indexation de votre site.

Robot.txt ne consiste pas seulement à interdire le contenu ou les fichiers indésirables. Il est également essentiel pour un téléchargement plus rapide. Vous pouvez le faire facilement. Il n'y a rien lié aux connaissances techniques pour faire cette tâche. N'importe qui peut le faire après une très bonne analyse. Après l'avoir appliqué, n'oubliez pas de le tester avec l'outil Google.robot.txt. Il vous aide à identifier s'il y a des erreurs dans votre texte ajouté ou non.

Il est très essentiel de vous mettre à jour sur tous les aspects du référencement. Comme vous êtes sur un marché où de nouveaux changements se produisent quotidiennement, vous devez savoir tout ce qui se passe autour de vous. Essayez de mettre en œuvre les techniques les plus modernes pour faire de votre site un énorme succès.