Guia definitivo para a tag Noindex para SEO

Publicados: 2022-02-14

Impedir que determinadas páginas apareçam nos resultados de pesquisa é essencial para sua estratégia de indexação.

Um dos métodos cruciais para controlar a indexação do seu site é a diretiva noindex em meta robots tags ou x-robots-tags.

A tag noindex pode ser usada para informar aos bots que uma página não deve ser indexada quando você ainda deseja que eles rastreiem a página fornecida e sigam os links nela.

Implementações erradas da diretiva noindex podem fazer com que seu conteúdo seja efetivamente retirado do índice do Google.

Certifique-se de que isso não aconteça – siga meu guia para saber quando usar a tag noindex, como implementá-la e as melhores práticas a seguir.

Conteúdo ocultar
1 O que é a tag noindex?
1.1 Noindex vs nofollow
2 Quando você deve usar a tag noindex?
3 Como implementar a tag noindex
3.1 Insira a tag noindex no código HTML de uma página
3.1.1 Prós e contras das metatags de robôs
3.2 Adicione a tag noindex aos cabeçalhos HTTP
3.2.1 Servidor Apache
3.2.2 Servidor Nginx
3.2.3 Prós e contras do uso de cabeçalhos HTTP
3.3 Como você pode verificar sua implementação da tag noindex?
4 Mais informações sobre como usar a tag noindex
5 Comparando tags noindex, arquivos robots.txt e tags canônicas
5.1 Arquivos Robots.txt
5.2 Tags canônicas
6 Conclusão

O que é a tag noindex?

A tag noindex é uma tag HTML usada para controlar a maneira como os bots tratam uma determinada página ou arquivo em seu site e os impedem de indexar essa página ou arquivo.

Você pode dizer aos mecanismos de pesquisa para não indexar uma página adicionando uma diretiva noindex em uma metatag de robôs – basta adicionar o seguinte código à seção <head> do HTML:

 <meta name=”robots” content=”noindex”>

Alternativamente, a tag noindex pode ser adicionada como uma x-robots-tag em um cabeçalho HTTP :

 x-robots-tag: noindex

Quando um bot de mecanismo de pesquisa como o Googlebot rastreia uma página com a tag noindex, ele não a indexa. Se a página foi indexada anteriormente e a tag foi adicionada posteriormente, o Google a removerá dos resultados de pesquisa, mesmo que outros sites tenham links para ela.

Geralmente, os rastreadores de mecanismos de pesquisa não são obrigados a seguir metadiretivas , pois elas servem como sugestões e não como regras que devem respeitar. Alguns rastreadores de mecanismos de pesquisa podem interpretar os meta-valores dos robôs de maneira diferente.

No entanto, a maioria dos rastreadores de mecanismos de pesquisa – como o Googlebot – obedecem à diretiva noindex.

Noindex vs nofollow

Existem outras diretivas de meta robôs que o Google suporta – as mais populares incluem nofollow e follow. No entanto, a tag follow é a configuração padrão se nenhuma metatag robots for adicionada, então o Google a considera desnecessária .

A tag nofollow impede que os mecanismos de pesquisa rastreiem os links em uma página. Como resultado, os sinais de classificação dessa página não serão transmitidos para as páginas às quais ela está vinculada.

É possível usar a diretiva noindex sozinha, mas também pode ser combinada com outras diretivas. Por exemplo, você pode adicionar uma tag noindex e nofollow se não quiser que os bots do mecanismo de pesquisa indexem uma página e sigam os links nela.

Se você implementou uma tag noindex, mas sua página ainda está aparecendo nos resultados de pesquisa, é provável que o Google simplesmente não tenha rastreado a página desde que a tag foi adicionada. Para solicitar que o Google rastreie novamente uma página, você pode usar a ferramenta de inspeção de URL.

Quando você deve usar a tag noindex?

Você deve usar a tag noindex para evitar que as páginas sejam indexadas pelo Google.

Tornar as páginas menos importantes não indexáveis ​​é crucial porque o Google não tem recursos suficientes para rastrear e indexar todas as páginas que encontra na web. Ao mesmo tempo, você precisa identificar suas páginas valiosas que devem ser indexadas e priorizar sua otimização.

Vamos ver em quais tipos de páginas você deve implementar a tag noindex para torná-las não indexáveis.

Coloque a tag noindex em:

  • Páginas de produtos que estão esgotados e não estarão disponíveis novamente.
  • Páginas com conteúdo duplicado, geralmente dominantes em sites de comércio eletrônico. Também é recomendável usar tags canônicas para direcionar os mecanismos de pesquisa para as versões principais de suas páginas e evitar problemas de conteúdo duplicado.
  • Páginas que não devem ser acessadas nos resultados de pesquisa, por exemplo, ambientes de teste ou páginas protegidas por senha.
  • Páginas valiosas para os mecanismos de pesquisa, mas não para os usuários – como páginas contendo links que ajudam os bots a descobrir outras páginas.

Tornar as páginas não indexáveis ​​deve ser feito como parte de uma estratégia de indexação bem estabelecida.

Você nunca deve incluir noindex em páginas valiosas, como:

  • Páginas de produtos mais populares,
  • Artigos de blog (a menos que desatualizados),
  • Sobre mim e páginas de contato,
  • Páginas que descrevem os serviços que você oferece.

Geralmente, nunca coloque noindex em páginas que você espera gerar tráfego orgânico significativo.

Como implementar a tag noindex

A tag noindex pode ser colocada no código HTML de um site ou nos cabeçalhos de resposta HTTP.

Alguns plugins de CMS como o Yoast permitem que você não indexe automaticamente as páginas que você publica.

Vamos analisar os dois principais métodos de implementação passo a passo e analisar seus prós e contras.

Insira a tag noindex no código HTML de uma página

A tag noindex pode ser implementada como uma metatag de robôs no <head> do HTML de uma página.

As metatags de robôs são códigos usados ​​para controlar o rastreamento e a indexação de um site. Os usuários não podem vê-los, mas os bots os encontram enquanto rastreiam uma página.

Veja como implementar o código:

 <!DOCTYPEhtml>
<html>
<cabeça>
<meta name="robots" content="noindex" >
</head>
<corpo>
</body>
</html>

Vamos esclarecer como uma metatag de robôs é estruturada.

Dentro de uma metatag, existem pares de atributos e valores:

 <meta atributo=”valor”>

A metatag Robots tem dois atributos:

  • name – especifica o nome dos bots do mecanismo de pesquisa,
  • content – ​​contém diretivas para bots.

Ambos os atributos exigem valores diferentes com base no que você deseja que os bots façam. Além disso, os atributos de nome e conteúdo não diferenciam maiúsculas de minúsculas.

O atributo name normalmente assume o valor de “robots”, indicando que uma diretiva tem como alvo todos os bots.

Também é possível usar o nome de um bot específico, como “googlebot”, embora você encontre isso com muito menos frequência. Se você quiser abordar bots diferentes, precisará criar metatags separadas para cada um deles.

Lembre-se de que os mecanismos de pesquisa têm rastreadores diferentes para propósitos diferentes – confira a lista de rastreadores do Google.

Enquanto isso, o atributo content contém a diretiva para os bots seguirem. No nosso caso, é “noindex”. Você pode colocar mais de um valor lá e separar os atributos por vírgulas.

Prós e contras das metatags de robôs

O método HTML é mais fácil de implementar e modificar do que o método de cabeçalho HTTP. Também não requer que você tenha acesso ao seu servidor.

No entanto, implementar a tag noindex em seu HTML pode ser demorado – você precisará adicioná-la manualmente a todas as páginas que deseja noindex.

Adicione a tag noindex aos cabeçalhos HTTP

Outra solução é especificar a diretiva noindex em uma tag x-robots.

Este é um elemento de uma resposta de cabeçalho HTTP . Os cabeçalhos HTTP são usados ​​para comunicação entre um servidor e um cliente (um navegador ou bot de mecanismo de pesquisa).

Você pode configurá-lo em seu servidor web HTTP. O código parecerá um pouco diferente dependendo do servidor que você estiver usando – como Apache, Nginx ou outros.

Aqui está um exemplo de como pode ser uma resposta HTTP com uma tag x-robots:

 HTTP/1.1 200 OK
(…)
x-robots-tag: noindex
(…)

servidor Apache

Se você tem um servidor baseado em Apache e deseja noindex todos os arquivos que terminam com “.pdf”, você deve adicionar a diretiva ao arquivo .htaccess .

Aqui está o código de exemplo:

 <Arquivos ~ "\.pdf$">
Conjunto de cabeçalho x-robots-tag "noindex"
</Arquivos>

Servidor Nginx

Se você tiver um servidor baseado em Nginx , implemente a diretiva no arquivo .conf :

 localização ~* \.pdf$ {
add_header x-robots-tag "noindex";
}

Prós e contras de usar cabeçalhos HTTP

Uma vantagem significativa de usar noindex em cabeçalhos HTTP é que você pode usá-lo em documentos da Web que não são páginas HTML , como arquivos PDF, vídeos ou imagens. Além disso, esse método permite segmentar uma parte específica da página.

Além disso, x-robots-tag suporta o uso de expressões regulares ( RegEx ). Em outras palavras, você pode segmentar as páginas que não devem ser indexadas especificando o que elas têm em comum. Por exemplo, você pode segmentar páginas com URLs que contenham parâmetros ou símbolos específicos.

Por outro lado, você precisa de acesso ao seu servidor para implementar uma tag x-robots.

Adicionar a tag também requer habilidades técnicas e é mais complicado do que adicionar as metatags robots ao HTML de um site.

Como você pode verificar sua implementação da tag noindex?

Se você quiser verificar se noindex ou outras metadiretivas de robôs estão implementadas, você pode fazê-lo com base em como elas foram adicionadas a uma página.

Portanto, se a tag noindex foi adicionada ao HTML de uma página, você pode verificar seu código-fonte, enquanto para cabeçalhos HTTP, você pode usar a opção Inspecionar no Chrome . Essas ferramentas mostrarão quais diretivas foram reconhecidas em uma determinada página.

Outras opções incluem inserir um URL na ferramenta de inspeção de URL do Google Search Console ou usar a extensão Link Redirect Trace .

Mais informações sobre como usar a tag noindex

Aqui estão algumas diretrizes adicionais sobre o uso da tag noindex e detalhes sobre suas características:

  1. Sempre que você não incluir noindex em seu código, a opção padrão é que os bots possam indexar sua página .
  2. Cuidado com quaisquer erros no código, como incluir vírgulas nos lugares certos – os bots não entenderão seus comandos se a sintaxe estiver errada.
  3. Adicione as tags em seu código HTML ou cabeçalhos de resposta HTTP, mas não ambos. Fazê-lo pode ter um impacto predominantemente negativo se as diretivas nos respectivos locais forem contraditórias. Nesse caso, o Googlebot escolherá a diretiva que limita a indexação.
  4. Você pode usar uma diretiva noimageindex que funcionará de maneira semelhante a noindex, mas apenas impedirá que as imagens em uma determinada página sejam indexadas.
  5. Depois de um tempo, os bots começam a ver noindex como também nofollow. Muitas pessoas desativam a indexação de páginas usando o noindex, mas a combinam com a diretiva follow para garantir que os robôs ainda rastreiem os links em uma página. Mas o Google explicou que uma diretiva noindex, follow acabará sendo tratada como noindex, nofollow porque, em algum momento, eles param de rastrear os links em páginas noindexed. Como resultado, as páginas de destino do link podem não ser indexadas e podem receber sinais de classificação diminuídos, o que pode afetar negativamente sua classificação.
  6. Não use noindex em arquivos robots.txt. Embora esta e algumas outras regras não tenham suporte oficial, os bots de mecanismos de pesquisa seguiram as diretivas noindex nos arquivos robots.txt. No entanto, em setembro de 2019, o Google anunciou que havia retirado o código que lidava com regras não suportadas e não publicadas em arquivos robots.txt – como noindex – em setembro de 2019.

Comparação de tags noindex, arquivos robots.txt e tags canônicas

tags noindex, arquivos robots.txt e tags canônicas estão relacionadas – elas podem ser usadas para controlar o rastreamento e/ou indexação de páginas .

No entanto, eles têm algumas características distintivas que os tornam adequados em diferentes situações.

Estabelecemos que as tags noindex controlam se páginas específicas em um site devem ser indexadas e operam no nível da página.

Vejamos como isso se compara aos arquivos robots.txt e às tags canônicas.

Arquivos robots.txt

Os arquivos Robots.txt podem ser usados ​​para controlar como os bots de mecanismos de pesquisa rastreiam partes do seu site em um nível de diretório.

Especificamente, os arquivos robots.txt incluem diretivas para bots de mecanismos de pesquisa, com foco em “não permitir” ou “permitir” seu comportamento. Se os bots seguirem a diretiva, eles não rastrearão as páginas não permitidas e as páginas não serão indexadas.

As diretivas Robots.txt são amplamente usadas para economizar o orçamento de rastreamento de um site .

Tenha cuidado ao implementar tags noindex e configurar as regras em arquivos robots.txt. Para que uma diretiva noindex seja eficaz, a página especificada precisa estar disponível para rastreamento, o que significa que ela não pode ser bloqueada pelo arquivo robots.txt.

Se o rastreador não puder acessar a página, ele não verá a tag noindex e não a respeitará. A página pode ser rastreada e aparecer nos resultados da pesquisa – por exemplo, se outras páginas estiverem vinculadas a ela.

Para noindex uma página, permita rastreá-la em robots.txt e use uma meta tag noindex para bloquear sua indexação – o Googlebot seguirá a diretiva noindex.

Tags canônicas

As tags canônicas são elementos HTML que informam aos mecanismos de pesquisa qual página dentre várias semelhantes é a versão principal e deve ser indexada. Eles são colocados em páginas secundárias e especificam a URL canônica – como resultado, essas páginas secundárias não devem ser incluídas no índice.

As tags canônicas podem limitar a indexação de páginas que não são canônicas, mas o Google nem sempre respeita essas tags . Por exemplo, se o Google encontrar mais links para outra página, ele poderá tratá-lo como mais importante do que o URL canônico especificado e considerá-lo a versão principal.

Além disso, as tags canônicas podem ser descobertas por bots apenas durante o rastreamento. Ao contrário dos arquivos robots.txt, eles não podem ser usados ​​para impedir que uma página seja rastreada.

Uma diferença vital entre as tags canônicas e as tags noindex é que as páginas canônicas consolidam os sinais de classificação em um URL. Enquanto isso, as páginas não indexadas não passarão os sinais de classificação , o que é vital em relação aos links internos – elas não passarão sinais de classificação para os URLs aos quais vinculam.

Empacotando

Tornar as páginas de baixa qualidade não indexáveis ​​é uma das melhores práticas de SEO para otimizar sua estratégia de indexação – e usar a metatag noindex é uma das melhores maneiras de manter uma página fora do índice do Google .

Usando a tag, você pode bloquear a indexação de páginas sem importância e, posteriormente, ajudar os rastreadores de mecanismos de pesquisa a se concentrarem em seu conteúdo mais valioso.

O rastreamento e a indexação eficientes do seu site são essenciais para aproveitar ao máximo o tráfego orgânico que as páginas valiosas podem direcionar para o seu site. Para saber mais sobre o processo de indexação, certifique-se de ler nosso guia para indexação de SEO a seguir!