O Google esquece os URLs na fila de indexação

Publicados: 2021-12-21

Erros de indexação não são inéditos. O Google vem tendo problemas com a indexação há algum tempo. Eles podem acontecer a qualquer pessoa sem culpa do proprietário do site, independentemente do tamanho do site. Apenas no ano passado, houve um caso de bugs de indexação envolvendo indexação móvel e canonização.  

Alguns meses atrás, eu experimentei um bug de indexação pessoalmente quando descobri que meu Ultimate Guide to Indexing SEO não estava indexado.

Após uma pesquisa completa, descobri que o Google indexou a versão errada do URL sem motivo aparente. Você pode aprender mais sobre esse bug em particular no meu artigo My Ultimate Guide to Indexing SEO Isn't Indexed.

No início deste ano, encontrei outro bug de indexação, indicando que o Google pode estar perdendo o controle dos URLs na fila de indexação.  

Vamos decompô-lo passo a passo.

Conteúdo ocultar
1 URL esquecido na fila de indexação do Google
2 Mais sites sofrem com o bug de indexação do Google
3 Uma possível solução para o bug
4 Conclusão

URL esquecido na fila de indexação do Google

No dia 6 de outubro, publicamos um artigo: Rendering SEO: How Google Digests Your Content. O artigo era uma transcrição de uma conversa entre Bartosz Goralewicz da Onely, Martin Splitt do Google e Jason Barnard da Kalicube.

Infelizmente, durante as três semanas desde a data de publicação, o artigo não trouxe nenhum tráfego do Google.

captura de tela do Google Search Console mostrando nenhum tráfego

Achei estranho — outro artigo interessante não indexado pelo Google? O Google sofre de outro bug de indexação?

Como me esforço para entender os detalhes do processo de indexação do Google, decidi realizar uma pequena investigação.

Verifiquei o que o Google Search Console tinha a dizer sobre esse URL.

O GSC afirmou que este URL foi "Descoberto - atualmente não indexado".  

Captura de tela da ferramenta de inspeção de URL mostrando que o URL não está no Google

Ao consultar a documentação do Google, você encontrará a seguinte explicação sobre o status:

Descoberto – atualmente não indexado: a página foi encontrada pelo Google, mas ainda não foi rastreada.
fonte: Google

O status do URL parecia altamente improvável. Eu não podia acreditar que o Google não rastreou esta página dentro de três semanas após a publicação em um site relativamente pequeno.

Então, eu verifiquei nossos logs do servidor.

Os logs do servidor permitem que você examine o tráfego que chega ao seu site. Eles contêm informações sobre cada solicitação, incluindo hora e data, string do agente do usuário, endereço IP etc. Graças a essas informações, pude ver se (e quando) o Googlebot estava nesta página.

Surpreendentemente, descobri que o Googlebot visitou a página no dia em que publicamos o artigo!

Nesse ponto, eu tinha duas informações cruciais:

  1. Os dados do Google Search Console de que o Googlebot ainda não havia visitado a página não eram verdadeiros. Os registros do servidor provaram que o Googlebot visitou o URL no dia em que o artigo foi publicado.
  2. Não foi apenas um bug de relatório do Google Search Console. A página não estava recebendo nenhum tráfego orgânico, então havia problemas claramente mais significativos do que apenas erros no relatório.

Mais sites sofrem com o bug de indexação do Google

Eu queria saber mais sobre esse bug e sua escala, então pesquisei uma amostra maior de sites para tirar conclusões acionáveis.

Coletei logs do servidor de quatro outros sites e mergulhei nos dados.

Descobriu-se que 100% dos sites que examinei sofriam desse mesmo problema. Houve vários URLs visitados pelo Googlebot, mas classificados incorretamente pelo Google Search Console como:

  • Descoberto – atualmente não indexado, ou
  • Desconhecido.

No caso do status Desconhecido, parece que o Google afirma que nunca visitou a página e não tem memória de descobrir o URL.

Meme com Gandalf dizendo "Não tenho memória dessa URL"

Descobri que o problema estava presente em uma das páginas testadas mesmo 6 meses depois que o Google a visitou inicialmente. De acordo com os logs do servidor, a última visita foi em 7 de março, mas em 27 de outubro, o status ainda era Desconhecido.

Parece que o Google ocasionalmente esquece os URLs em algum ponto do pipeline de indexação. Não está claro se o mecanismo de pesquisa está apenas perdendo o controle de alguns URLs ou omitindo-os deliberadamente.

De qualquer forma, as consequências são graves. As páginas esquecidas não recebem nenhum tráfego orgânico.

Uma possível solução para o bug

Dan Shure compartilhou um caso interessante relacionado ao bug de URL esquecido.

Parece que mudar a URL foi suficiente para resolver o problema.

Dan Shure não foi o único que testou esta solução. Frank Olivo conseguiu quase ⅓ de seus artigos indexados alterando seus URLs!

É possível que esses URLs tenham se enquadrado em padrões de URLs de baixa qualidade, então o Google não os estava rastreando e, portanto, os classificou como "Descoberto - atualmente não indexado" no Google Search Console.

Você pode convencer o Google a tratar a página como uma nova e rastreá-la novamente alterando o URL. Essa solução pode ajudar a indexar a página, mas é apenas uma solução alternativa. Isso não impede que o problema aconteça novamente. O Google deve resolver o problema e o bug deve ser corrigido permanentemente.

Empacotando

Conforme descrito no artigo, há um problema grave com a indexação. Não é tão aparente e espetacular quanto os bugs de indexação anteriores (por exemplo, conectados à canonização), mas ainda pode impactar negativamente qualquer site.

Se você é um funcionário do Google e deseja investigar o problema, posso compartilhar alguns exemplos de URLs que sofreram com esse problema.

Você notou esse bug ou um bug de indexação semelhante em seu site? Avise!