Indexação SEO 101: Como criar uma estratégia de indexação para seu site

Publicados: 2021-12-14

Os mecanismos de pesquisa não devem indexar todas as páginas do seu site.

Mesmo se você achar que tudo em seu site é simplesmente fantástico, a maioria dos sites tem muitas páginas que simplesmente não pertencem aos resultados da pesquisa. E se você permitir que os mecanismos de pesquisa indexem essas páginas, poderá enfrentar consequências negativas.

É por isso que você precisa de uma estratégia de indexação para o seu site. Seus elementos-chave são:

Decidir quais páginas você deseja que os mecanismos de pesquisa indexem e usar métodos apropriados para maximizar suas chances de serem indexados,
Decidir quais páginas não devem ser indexadas e como excluí-las da pesquisa sem limitar sua visibilidade potencial de pesquisa.

Decidir quais páginas devem ou não ser indexadas é difícil. Você pode encontrar algumas diretrizes e dicas para páginas específicas, mas muitas vezes estará por conta própria.

E escolher os métodos apropriados para excluir essas páginas dos resultados da pesquisa requer ainda mais consideração. Você deve usar a tag noindex ou a tag canônica, bloquear a página em robots.txt ou usar um redirecionamento permanente?

Este artigo descreverá o processo de tomada de decisão que permitirá que você crie uma estratégia de indexação personalizada para seu site.

Embora você possa se deparar com casos extremos que não aderem à lógica que proponho, o processo sublinhado abaixo fornecerá ótimos resultados na esmagadora maioria dos casos.

Conteúdo ocultar

1 Por que algumas páginas não devem ser indexadas

1.1 Otimize seu orçamento de rastreamento

1.2 Não deixe que conteúdo de baixa qualidade danifique seu site

2 Métodos para controlar a indexação

2.1 metatag de robôs Noindex

2.2 Diretiva não permitir em robots.txt

2.3 Marca canônica

2.4 Redirecionamento permanente

2.5 Mapas de site XML

3 Como decidir quais páginas devem ou não ser indexadas

3.1 Páginas valiosas para os usuários

3.1.1 Páginas valiosas para usuários que devem ser indexadas

3.1.1.1 Conteúdo exclusivo e de alta qualidade

3.1.1.2 Versão de idioma alternativo

3.1.2 Páginas valiosas para usuários que não devem ser indexadas

3.1.2.1 Duplicado ou quase duplicado de uma página diferente

3.1.2.2 Páginas sem demanda de pesquisa

3.2 Páginas valiosas apenas para mecanismos de pesquisa

3.3 Páginas sem valor para ninguém

4 Conclusão

Por que algumas páginas não devem ser indexadas

Existem duas razões principais pelas quais você não deve querer que os mecanismos de pesquisa indexem todas as suas páginas:

Ajuda a otimizar o orçamento de rastreamento,
Muito conteúdo de baixa qualidade indexável pode prejudicar a forma como os mecanismos de pesquisa veem seu site.

Otimize seu orçamento de rastreamento

Os bots dos mecanismos de pesquisa podem rastrear um número limitado de páginas em um determinado site. A Internet é infinitamente grande, e rastrear tudo excederia os recursos que os mecanismos de busca têm.

A quantidade de tempo e recursos que os bots do mecanismo de pesquisa gastam no rastreamento do seu site é chamada de orçamento de rastreamento. Se você desperdiçar o orçamento de rastreamento em páginas de baixa qualidade, pode não haver o suficiente para as mais valiosas que realmente deveriam ser indexadas.

Ao reservar um tempo para decidir quais páginas você deseja indexar, você pode otimizar seu orçamento de rastreamento e garantir que os bots dos mecanismos de pesquisa não desperdicem seus recursos em páginas menos importantes.

Se você quiser saber mais sobre como otimizar seu orçamento de rastreamento, confira nosso Guia definitivo para otimização de orçamento de rastreamento.

Não deixe que conteúdo de baixa qualidade danifique seu site

Se os mecanismos de pesquisa perceberem que você tem muito conteúdo de baixa qualidade, eles podem decidir parar de rastrear seu site com tanta frequência.

Tomek Rudzki, em seu Ultimate Guide to Indexing SEO, chamou isso de “ responsabilidade coletiva ”.

É um círculo vicioso:
O Google rastreia páginas de baixa qualidade.
O Google para de visitar o site com tanta frequência.
Muitas páginas nunca são rastreadas pelo Google, mesmo que sejam páginas de alta qualidade.
Existem páginas valiosas que não são indexadas.
Isso mostra como a classificação, o rastreamento e a indexação estão interconectados.
fonte: Tomasz Rudzki

Métodos para controlar a indexação

Existem vários métodos que você pode usar para controlar a indexação de suas páginas, incluindo:

metatag de robôs Noindex,
Diretiva não permitir em robots.txt,
Marca canônica,
Redirecionamento permanente,
Mapa do site XML.

Cada um dos métodos acima tem seu próprio uso e função.

Metatag de robôs Noindex

 <meta name="robots" content="noindex">

Se você adicionar a diretiva acima à seção HTML <head> da sua página, os bots do mecanismo de pesquisa entenderão que não devem indexá-la. Isso impedirá que a página apareça na página de resultados dos mecanismos de pesquisa.

Você deve usar essa tag se não quiser que a página seja indexada, mas ainda deseja que os bots dos mecanismos de pesquisa rastreiem sua página e, por exemplo, sigam os links dessa página.

Diretiva de desautorização em robots.txt

 Agente de usuário: *
Não permitir: /example/page.html

A diretiva disallow no arquivo robots.txt permite bloquear o acesso dos mecanismos de pesquisa à página. Se um bot de mecanismo de pesquisa respeitar a diretiva, ele não rastreará as páginas não permitidas e, consequentemente, elas não serão indexadas.

Como a diretiva disallow restringe o rastreamento, esse método pode ajudar você a economizar seu orçamento de rastreamento.

Observação: a diretiva disallow não é uma maneira adequada de bloquear o acesso às suas páginas confidenciais. Bots maliciosos ignoram o arquivo robots.txt e ainda podem acessar o conteúdo. Se você quiser garantir que algumas páginas não sejam acessíveis a todos os bots, é melhor bloqueá-las com uma senha.

Tag canônica

 <link rel="canonical" href="https://www.example.com/page.html">

Uma tag canônica é um elemento HTML que informa aos mecanismos de pesquisa quais URLs duplicados são os originais.

Usando a tag canônica, você especifica exatamente qual versão de uma página você deseja que seja indexada e apareça nos resultados da pesquisa. Sem a tag canônica, você não tem controle sobre qual versão da sua página é indexada.

Os bots de mecanismos de pesquisa ainda precisam rastrear a página para descobrir a tag canônica, portanto, usá-la não ajudará você a economizar seu orçamento de rastreamento.

Redirecionamento permanente

O redirecionamento 301 é um código de resposta HTTP que indica um redirecionamento permanente. Ele especifica que a página solicitada tem um novo local e a página antiga foi removida do servidor.

Quando você usa um redirecionamento 301, os usuários e os bots do mecanismo de pesquisa não acessam o URL antigo. Em vez disso, os sinais de tráfego e classificação serão redirecionados para a nova página.

Usar o redirecionamento 301 é um bom método para economizar o orçamento de rastreamento. Você está diminuindo o número de páginas disponíveis em seu site, portanto, os bots de mecanismos de pesquisa têm menos conteúdo para rastrear.

Lembre-se de que você deve redirecionar apenas para uma página relacionada. Redirecionar para uma página não relacionada pode confundir os usuários. Além disso, os bots dos mecanismos de pesquisa podem não seguir o redirecionamento e tratar a página como um soft 404.

Mapas de site XML

Um sitemap XML é um arquivo de texto que lista os URLs que você deseja que os mecanismos de pesquisa indexem. Seu objetivo é ajudar os bots dos mecanismos de pesquisa a encontrar facilmente as páginas de seu interesse.

Um sitemap bem otimizado não apenas direciona os mecanismos de pesquisa para suas páginas valiosas, mas também ajuda a economizar seu orçamento de rastreamento. Sem ele, os bots precisam rastrear todo o site para descobrir seu conteúdo valioso.

É por isso que os sitemaps devem listar apenas os URLs indexáveis em seu site. Isso significa que as páginas que você coloca no mapa do site devem ser:

Canônico,
Não bloqueado pela metatag de robôs noindex e
Não bloqueado pela diretiva disallow em robots.txt,
Respondendo com código de status 200.

Você pode aprender mais sobre como otimizar sitemaps em nosso Ultimate Guide to XML Sitemaps.

Como decidir quais páginas devem ou não ser indexadas

Para ajudá-lo a decidir quais páginas devem ou não ser indexadas, criei uma árvore de decisão com todas as perguntas essenciais que você precisa responder.

árvore de decisão com o título "esta página deve ser indexada"

Veja a imagem em tamanho real.

Como você pode ver acima, a questão fundamental é: esta página é valiosa para alguém?

Há três respostas possíveis para essa pergunta:

A página é valiosa para usuários de mecanismos de pesquisa (e mecanismos de pesquisa),
A página é valiosa para os motores de busca,
A página não é valiosa para ninguém.

A linha inferior é que apenas as páginas valiosas para os usuários devem ser indexadas. No entanto, mesmo nessa categoria, existem tipos de páginas que não devem ser indexadas.

Vamos decompô-lo.

Páginas valiosas para os usuários

Uma página é valiosa para os usuários do mecanismo de pesquisa se fornecer uma resposta à pesquisa ou permitir que eles naveguem até a resposta.

Na maioria dos casos, se uma página é valiosa para os usuários, ela deve ser indexada. No entanto, ainda pode haver uma situação em que uma página é valiosa para os usuários, mas não deve ser indexada.

Páginas valiosas para usuários que devem ser indexadas

Uma página deve ser indexada se:

Ele fornece conteúdo exclusivo de alta qualidade que traz tráfego,
É uma versão de idioma alternativo de uma página diferente de alta qualidade (se aplicável).

Conteúdo exclusivo e de alta qualidade

Páginas exclusivas e de alta qualidade que trazem tráfego para o seu site definitivamente devem chegar ao seu mapa do site. Certifique-se de não bloqueá-los em robots.txt, e eles não têm a tag meta robots noindex.

Preste atenção especial às páginas mais valiosas para o seu negócio . São os que costumam trazer mais conversão. Páginas como:

Pagina inicial,
Sobre nós e páginas de contato,
Páginas com informações sobre o serviço que você fornece,
Artigos de blog mostrando sua experiência,
Páginas com itens específicos (como produtos de comércio eletrônico),

devem ser sempre indexáveis e você deve monitorar regularmente sua indexação.

Versão de idioma alternativo

O conteúdo traduzido não é tratado como duplicado pelos mecanismos de pesquisa. Na verdade, os mecanismos de pesquisa querem saber se você tem versões em vários idiomas disponíveis para apresentar a versão mais adequada aos usuários em diferentes países.

Se você tiver uma versão de idioma alternativo de uma página, especifique-a com uma tag hreflang e coloque a página em seu sitemap.

Você pode especificar as tags hreflang em seu sitemap, HTML ou ambos. As tags Hreflang usadas em sitemaps são perfeitamente adequadas do ponto de vista do mecanismo de pesquisa. No entanto, eles podem ser difíceis de verificar com ferramentas de SEO ou plugins de navegador. Por isso, a forma recomendada de adicionar a tag é no código HTML e no mapa do site, ou apenas no código HTML.

Lembre-se de que cada página precisa especificar todas as versões de idioma, incluindo seu próprio idioma.

Páginas valiosas para usuários que não deveriam ser indexadas

Em algumas situações, as páginas podem ser valiosas para os usuários, mas ainda assim não devem ser indexadas. As situações incluem:

Conteúdo duplicado ou quase duplicado,
Páginas sem demanda de pesquisa.

Duplicado ou quase duplicado de uma página diferente

Os bots de mecanismos de pesquisa podem considerar uma página duplicada ou quase duplicada se:

Dois ou mais URLs diferentes levam à mesma página,
Duas páginas diferentes têm conteúdo muito semelhante.

Um dos exemplos mais comuns de conteúdo duplicado são as páginas de categorias filtradas em sites de comércio eletrônico. Os usuários podem aplicar filtros para restringir os produtos e encontrar o que procuram mais rapidamente. Infelizmente, cada filtro aplicado pode salvar os parâmetros na URL, criando várias URLs que levam à mesma página.

Por exemplo, store.com/dresses/item e store.com/dresses/item?color=yellow podem apontar para o mesmo conteúdo.

Outros motivos para conteúdo duplicado ou quase duplicado envolvem:

Ter URLs diferentes para versões para celular e desktop,
Ter uma versão impressa do seu site, ou
Criando conteúdo duplicado por engano.

Os riscos de ter conteúdo duplicado indexável incluem:

Não ter controle sobre qual versão pode aparecer nos resultados da pesquisa. Por exemplo, se você tiver versões impressas e regulares disponíveis, os mecanismos de pesquisa poderão mostrar a versão impressa na pesquisa.
Dividindo os sinais de classificação entre vários URLs.
Aumentar drasticamente o número de URLs que os mecanismos de pesquisa precisam rastrear.
Reduzir sua posição nas SERPs se os mecanismos de pesquisa decidirem que você deseja manipular o ranking (uma consequência rara).

Para evitar as consequências negativas de ter conteúdo duplicado, você deve tentar consolidá -lo. As principais maneiras de fazer isso incluem tags canônicas e redirecionamentos 301.

As tags canônicas são a melhor opção se você precisar que todas as páginas estejam disponíveis para os usuários.

Um exemplo de conteúdo duplicado que deve permanecer disponível em seu site é aquele que melhora a experiência do usuário. Por exemplo, quando os usuários filtram os produtos em um site de comércio eletrônico, redirecioná-los pode ser confuso por vários motivos, como uma mudança repentina de migalhas de pão.

Além disso, pode ser necessário ter conteúdo duplicado em seu site quando você tiver versões diferentes para dispositivos diferentes.

Com um redirecionamento 301 , apenas uma das páginas fica disponível em seu site. O restante será redirecionado automaticamente.

Um redirecionamento 301 pode ser útil quando, por exemplo, você tem duas postagens de blog muito semelhantes e decide que apenas uma deve permanecer em seu site. O código de status 301 redirecionará os sinais de tráfego e classificação para o artigo escolhido. É um excelente método para otimizar seu orçamento de rastreamento, mas você pode usá-lo apenas quando quiser remover a página duplicada.

Lembre-se de fazer alterações em seu mapa do site sempre que usar redirecionamentos permanentes. Você só deve colocar páginas que respondam com 200 códigos de status em seu sitemap. Portanto, se você estiver usando o redirecionamento 301 para consolidar o conteúdo, apenas a versão que permanecer no seu site deverá permanecer no mapa do site.

Páginas sem demanda de pesquisa

Você pode ter um bom conteúdo em seu site que não tenha nenhuma demanda de pesquisa. Em outras palavras, ninguém está procurando por isso. Isso pode acontecer quando você está escrevendo sobre um hobby de nicho ou tem páginas com, por exemplo, uma nota de “obrigado” para seus usuários.

Essas páginas podem não trazer tráfego ou conversões. Talvez você queira deixá-los porque eles complementam as jornadas dos usuários, mas não quer que eles sejam a primeira coisa que os usuários veem no resultado da pesquisa.

Se você acha que os usuários não devem ver uma página específica nos resultados de pesquisa ou a página não traz tráfego, não há necessidade de mantê-la indexada. Dessa forma, os bots dos mecanismos de pesquisa podem se concentrar nas páginas que realmente geram tráfego.

Para bloquear a indexação de uma página sem demanda de pesquisa, use a tag meta robots noindex. Os bots não o indexarão, mas ainda o rastrearão e seguirão os links dessa página, dando a eles mais contexto sobre seu site.

Páginas valiosas apenas para os mecanismos de pesquisa

Nem todas as páginas são destinadas a ajudar os usuários. Alguns deles ajudam os mecanismos de pesquisa a conhecer seu site e descobrir links.

Dê uma olhada nesta página do LinkedIn:

captura de tela da página do LinkedIn com uma lista de perfis

Ele lista os perfis de todos os usuários, tornando mais fácil para os mecanismos de busca encontrar todos os links.

Por um lado, páginas como essas podem confundir os usuários e desencorajá-los a permanecer no site. Eles não são valiosos para eles, portanto, não devem aparecer nos resultados de pesquisa e não devem ser indexados.

Por outro lado, eles são úteis para os mecanismos de pesquisa – eles aumentam seus links internos.

É por isso que a melhor solução é implementar meta tags de robôs noindex, deixar essas páginas fora do mapa do site e permitir o rastreamento delas no robots.txt. Eles não serão indexados, mas os bots os rastrearão.

Páginas sem valor para ninguém

Algumas páginas não são valiosas para usuários ou mecanismos de pesquisa.

Alguns deles são obrigados a existir em seu site por lei, por exemplo, política de privacidade, mas, sejamos honestos – ninguém está procurando por esse tipo de conteúdo. Claro, você não pode removê-los, mas não há necessidade de indexá-los porque ninguém quer encontrá-los. Em alguns casos, eles podem superar o conteúdo mais valioso e “roubar” tráfego.

Páginas sem valor também incluem conteúdo fino e de baixa qualidade. Você deve prestar atenção especial a eles, pois eles podem prejudicar a maneira como os usuários e os mecanismos de pesquisa percebem a qualidade geral do seu site. Consulte o capítulo Conteúdo de baixa qualidade pode danificar seu site para obter mais informações.

Mais importante, você precisa garantir que as páginas sem valor tenham a tag meta robots noindex. Se você não bloquear a indexação deles, eles podem prejudicar seus rankings e desencorajar os usuários a visitar seu site.

Além disso, se você quiser otimizar seu orçamento de rastreamento, bloqueie essas páginas no arquivo robots.txt e remova os links internos que apontam para elas. Isso ajudará você a economizar o orçamento de rastreamento para páginas mais valiosas.

Empacotando

Saber quais de suas páginas devem e não devem ser indexadas e comunicá-las aos robôs dos mecanismos de pesquisa é crucial para criar uma estratégia de indexação sólida.

Isso maximizará as chances de seu site ser rastreado e indexado corretamente e garantirá que seus usuários possam encontrar todo o seu conteúdo valioso nos resultados de pesquisa.

Aqui estão os principais tópicos que você precisa ter em mente ao criar sua estratégia de indexação:

Ao decidir se uma página deve ser indexada, pergunte-se se ela possui conteúdo exclusivo com valor para os usuários. Páginas exclusivas e valiosas não devem ser impedidas de serem indexadas por tags meta robots noindex ou bloqueadas de serem rastreadas usando as diretivas não permitir robots.txt.
Se o seu conteúdo de baixa qualidade for indexável, isso pode afetar negativamente sua classificação e colocar suas valiosas páginas em risco de não serem indexadas.
Se você tiver conteúdo duplicado ou quase duplicado em seu site, deverá consolidá-lo com uma tag canônica ou redirecionamento 301.
Se uma página não tiver demanda de pesquisa, ela não precisa ser indexada – use o noindex na meta robots tag.
As páginas que contêm conteúdo ou links valiosos apenas para os mecanismos de pesquisa devem ser impedidas de indexar usando a metatag noindex de robôs, mas não as impeça de serem rastreadas em robots.txt.
Se nem os usuários nem os mecanismos de pesquisa se beneficiarem ao visitar uma determinada página, ela deve ser definida como noindex na meta robots tag.
Se você tiver várias versões de idioma alternativo da mesma página, mantenha-as indexáveis. Use a tag hreflang para ajudar os mecanismos de pesquisa a entender como essas páginas estão relacionadas.