Como criar um bom arquivo Robots.txt para seu site

Publicados: 2018-07-09

Robots.txt – É mais um tópico técnico. Arquivo Robots.txt pode ser um novo termo para a maioria das pessoas. Na verdade, é um pequeno texto que decide o futuro do seu site.

Como isso é possível?

É possível. Este pequeno texto pode controlar o tráfego do seu site. Se você digitar errado, sua página pode não estar no resultado da pesquisa. Por isso, é importante saber usá-lo corretamente.

É um dos métodos de SEO simples e fáceis que você pode aplicar ao seu site. Ele não precisa de nenhum conhecimento técnico para controlar o poder do robots.txt. Se você pode encontrar o código-fonte, então é fácil.

Arquivo Robots.txt

Além disso, colocar robots.txt em qualquer lugar do site não ajudará. Para isso, você precisa primeiro encontrar o código-fonte e mantê-lo lá. Então, apenas o rastreador da Web poderá identificar sua instrução e agir de acordo.

A partir deste artigo, você obterá a resposta para as seguintes perguntas:

  • O que é um arquivo robots.txt?
  • Usos do arquivo robot.txt
  • Como funciona?
  • Como criá-lo?
  • Importância do arquivo robots.txt?
  • O que incluir neste arquivo?

Primeiro, deixe-me explicar o termo

O que é um arquivo Robots.txt?

Robots.txt é um arquivo de texto localizado no diretório raiz de um site. Ele controla os rastreadores e aranhas do mecanismo de pesquisa ao visitar um site específico. Isso significa que informa ao mecanismo de pesquisa sobre as páginas do site que desejam visitar ou não.

Todos os proprietários de sites tentam ser notados hoje em dia. Você pode fazer isso usando este pequeno texto. Ajuda incluir ou excluir uma página específica do resultado da pesquisa. Você terá uma idéia sobre isso depois de ler este artigo.

Quando um rastreador acessa um site, a primeira coisa que ele exige é o arquivo 'robots.txt'. Se houver tal arquivo, ele vai para as instruções de indexação para procedimentos adicionais.

Se você não adicionou um arquivo robots.txt, o mecanismo de pesquisa pode rastrear facilmente seu site em qualquer lugar e indexar tudo o que encontrar em seu site. Mas é uma boa prática especificar seu sitemap. Isso torna fácil para o mecanismo de pesquisa encontrar novos conteúdos sem demora.

Usos do robots.txt:

  • Você pode evitar páginas duplicadas usando este texto
  • Se você não quiser que o mecanismo de pesquisa indexe sua página de resultados de pesquisa interna, use este texto
  • Use-o se não quiser que os mecanismos de pesquisa indexem determinadas áreas da sua página da web ou todo o site
  • Você pode evitar a indexação de certas imagens ou arquivos
  • Você pode navegar pelo mecanismo de pesquisa para o seu mapa do site
  • Você pode usar um atraso de rastreamento para evitar que os servidores sejam sobrecarregados quando os rastreadores carregam vários conteúdos ao mesmo tempo.

Use o robots.txt apenas sempre que precisar controlar o acesso a uma página específica. Se não houver nada assim, você não precisa usá-lo

Como o arquivo Robots.txt funciona:

Um motor de busca tem duas funções principais.

  1. Rastreando o site para descobrir o conteúdo
  2. Indexar esse conteúdo para servir aos pesquisadores que procuram uma informação específica

O mecanismo de pesquisa rastreia de um site para outro. Assim, ele rastreia bilhões de sites. O processo de rastreamento também é conhecido como spidering.

Depois de chegar a um site e antes de rastrear de um site para outro, o rastreador de pesquisa procura o arquivo robots.txt. Se encontrar um, o rastreador o lê primeiro antes de continuar nesse site. Este arquivo robots.txt contém instruções para um rastreador da web. Diz se deve prosseguir ou não. Se o rastreador não encontrar instruções ou informações sobre o que fazer, ele prosseguirá para outras atividades.

Para onde vai o robots.txt?

O Robots.txt é a primeira coisa que um WebCrawler ou mecanismo de pesquisa procura quando visita um site. Ele só procura no diretório principal. Se não for encontrado lá, o rastreador prossegue com tudo no site. Portanto, é essencial colocar um arquivo robot.txt no diretório principal ou no domínio raiz .

Para explicar isso vamos dar um exemplo de wordpress.com. Se o agente do usuário visitar www.wordpress.com/robots.txt e se não houver arquivo de robô, ele assume que o site não possui instruções. Então ele começa a indexar todas as páginas. Se o arquivo do robô existir em www.wordpress.com/index/robots.text ou www.wordpress.com/homepage/robots.txt, o agente do usuário não o encontrará. Será tratado como um site sem robot.txt.

Etapas para criar um arquivo Robots.txt?

Um arquivo robots.txt contém dois campos; uma linha está com um nome de agente do usuário ou várias linhas com a diretiva. A segunda linha indica qual ação o rastreador deve fazer em um site. Vamos verificar como criar um arquivo robots.txt

  • O primeiro passo é abrir um novo arquivo de texto. Você pode usar o Bloco de Notas para PCs e o editor de texto para Mac e salvá-lo como um arquivo de texto incluído
  • Faça o upload para seu diretório raiz. É uma pasta de nível raiz chamada 'htdocs' ou 'www'. Então, isso vem logo depois do seu nome de domínio.
  • Se houver subdomínio, crie-o para cada subdomínio

Aqui está o formato básico do robots.txt

User-agent : [user-agent-name]

Disallow : [nome da string de URL que não deve ser rastreada]

Isso é basicamente conhecido como arquivo robots.txt. Pode haver várias linhas e diretivas de usuário. Pode ser qualquer coisa, desde permitir, não permitir, atrasos de rastreamento, etc.

Termos técnicos em robots.txt:

Existem algumas palavras comuns relacionadas à linguagem robots.txt. Eles são conhecidos como sintaxe robots.txt. Cinco palavras principais são comumente usadas no arquivo robots.txt. Eles são:

Agente de usuário :

User-agent é o rastreador da web ou mecanismo de pesquisa para o qual você está dando instruções.

Não permitir:

Este comando dá instruções ao rastreador para não rastrear um URL específico. Cada URL pode usar a única linha de não permissão.

Permitir:

Este comando é usado apenas para o Google Bot. Ao dar este comando, o bot do Google pode acessar essa subpasta ou página, mesmo que sua página pai não seja permitida.

Atraso de rastreamento:

Indica o tempo de espera antes de carregar e rastrear o conteúdo da página. Não funcionará para o bot do Google, mas você pode definir o horário para o console de pesquisa do Google

Mapa do site:

Ele é usado para chamar a localização de qualquer sitemap XML associado a um URL. É suportado apenas pelo Google, Yahoo, Bing e Ask.

Estes são os termos mais comuns que você deve conhecer na sintaxe do robot.txt. Agora você pode prever o comando apenas vendo um arquivo robots.txt

O que incluir em um arquivo Robots.txt?

Robot.txt apenas dá uma instrução para robôs da web sobre como acessar ou não acessar nada. Se você não quiser mostrar nenhuma página da web para os usuários, pode orientar o rastreador usando o arquivo robots.txt. Caso contrário, você pode protegê-lo usando uma senha. Assim, você pode ocultar a localização de qualquer administrador ou página privada. Impede o rastreamento de robôs para essas páginas privadas.

Agora vamos verificar como fazer isso com alguns exemplos

  • Permitir tudo e enviar o mapa do site:

Esta é uma boa opção para todos os sites. Isso permite que o mecanismo de pesquisa rastreie em todos os lugares e indexe todos os dados. Também permite mostrar a localização do XML para que o rastreador possa acessar facilmente novas páginas

Agente de usuário:*

Permitir: /

#referência do mapa do site

Mapa do site: www.wordpress.com/sitemap.xml

  • Permitir tudo, exceto um subdiretório

Às vezes, haverá uma área em sua página que você não deseja exibir nos resultados da pesquisa. Pode ser qualquer coisa como uma imagem, área de checkout, arquivos, seção de auditoria, etc. Você pode desativá-lo

Agente de usuário: *

Permitir: /

# subdiretório não permitido

Não permitir: /checkout/

Não permitir: /imagens/

Não permitir:/relatório de auditoria/

  • Permitir tudo, exceto determinados arquivos: -

Às vezes você pode querer mostrar uma mídia ou uma imagem em seu site ou mostrar documentos. Mas você não quer que eles apareçam nos resultados da pesquisa. Você pode ocultar arquivos animados, gifs, pdf ou arquivos PHP como mostrado abaixo

Agente de usuário:*

Permitir: /

#Disallow tipos de arquivo

Não permitir: /*.gif$

Não permitir: /*.pdf$

Não permitir: /*.php$

  • Permitir tudo, exceto algumas páginas da Web: -

Às vezes, você pode querer ocultar algumas páginas que não são adequadas para leitura, pode ser qualquer coisa dos seus termos e condições ou quaisquer tópicos sensíveis que você não deseja mostrar aos outros. Você pode ocultá-los da seguinte maneira

Agente de usuário: *

Permitir: /

#disallow páginas da web

Não permitir: /terms.html

Disallow:/ secret-list-of contacts.php

  • Permitir tudo, exceto certos padrões de URL

Às vezes, você pode querer desabilitar certos padrões de URL. Pode ser uma página de teste, qualquer página de pesquisa interna etc.

Agente de usuário: *

Permitir: /

#disallow padrões de URL

Não permitir: /*pesquisa=

Não permitir: /*test.php$

Nestas condições acima, você encontrou muitos símbolos e caracteres. Aqui estou explicando o que cada um deles realmente significa

  • O símbolo de estrela (*) representa qualquer número de caracteres ou um único caractere.
  • O símbolo do dólar ($) indica o final da URL. Se você esqueceu de colocá-lo, você bloqueará um grande número de URLs acidentalmente

Nota : – tenha cuidado para não desabilitar todo o domínio. Às vezes você pode ver um comando como este

Agente de usuário: *

Não permitir: /

Você sabe o que isso significa? Você está dizendo que o mecanismo de pesquisa não permite todo o seu domínio. Portanto, ele não indexará nenhuma de suas páginas da web e você não poderá estar em nenhum resultado de pesquisa. Portanto, tome cuidado para não colocar isso acidentalmente.

Testes Finais:

É importante verificar se o arquivo robots.txt está funcionando ou não. Mesmo que você tenha feito isso corretamente, uma verificação adequada é recomendada

Você pode usar a ferramenta robots.txt do Google para saber se está tudo bem com seu arquivo. Primeiro, você precisa registrar o site onde aplica o arquivo robots.txt na ferramenta do Google para webmasters. Depois de se registrar, faça login nessa ferramenta e selecione seu site específico. Agora, o Google exibirá todas as notas para mostrar o erro.

Como verificar se o seu site tem um arquivo robot.txt?

Você pode verificar isso facilmente. Vamos pegar o exemplo anterior de word press. Digite o endereço do seu site www.wordpress.com e adicione /robots.txt com ele. ou seja, www.wordpress.com/robots.txt. Agora, você pode ver se o seu site tem um arquivo roborts.txt ou não.

Outras dicas rápidas do robot.txt:

  • Se você colocar o robots.txt no diretório de nível superior de um site, é fácil ser notado
  • Se você não permitiu qualquer subdiretório então qualquer arquivo ou página da web dentro do subdiretório não será permitido
  • Robots.txt diferencia maiúsculas de minúsculas. Você deve inseri-lo como robots.txt. Caso contrário, não funcionará
  • Alguns agentes do usuário podem ignorar seu arquivo robots.txt. Alguns rastreadores, como raspadores de e-mail ou robôs de malware, etc., podem ignorar este arquivo
  • /robots.txt está disponível publicamente. Portanto, é melhor não ocultar nenhuma informação privada do usuário. Se você adicionar /robots.txt ao final de qualquer domínio raiz, poderá ver as páginas que deseja rastrear ou não, se houver um arquivo robot.txt.
  • Leva vários dias para um mecanismo de pesquisa identificar um URL não permitido e removê-lo de seu índice
  • Cada subdomínio em uma raiz usa um arquivo robots.txt separado. Por exemplo, blog.wordpress.com e wordpress.com usam arquivos robots.txt separados. ou seja, blog.wordpress.com/robots.txt e wordpress.com/robots.txt
  • É melhor adicionar a localização a qualquer mapa do site na parte inferior de um arquivo robots.txt

Você tem uma ideia do conceito? É um simples certo? Você pode aplicar isso ao seu site e melhorar seu desempenho. Não é necessário mostrar tudo em seu site. Você pode ocultar suas páginas de administração ou termos e condições etc dos usuários. O arquivo Robots.txt irá ajudá-lo nisso. Use-o com sabedoria para indicar o mapa do site e tornar a indexação do seu site mais rápida.

Robot.txt não se trata apenas de não permitir conteúdo ou arquivos indesejados. É muito essencial para download mais rápido também. Você pode fazer isso facilmente. Não há nada relacionado ao conhecimento técnico para fazer essa tarefa. Qualquer um pode fazer isso depois de uma análise muito boa. Depois de aplicar isso, não se esqueça de testá-lo com a ferramenta Google.robot.txt. Ele ajuda você a identificar se há algum erro no texto adicionado ou não.

É muito essencial atualizar-se em todos os aspectos do SEO. Como você está em um mercado onde novas mudanças acontecem diariamente, você precisa saber tudo o que está acontecendo ao seu redor. Tente implementar as técnicas mais modernas para tornar seu site um grande sucesso.