O Google esquece os URLs na fila de indexação
Publicados: 2021-12-21Erros de indexação não são inéditos. O Google vem tendo problemas com a indexação há algum tempo. Eles podem acontecer a qualquer pessoa sem culpa do proprietário do site, independentemente do tamanho do site. Apenas no ano passado, houve um caso de bugs de indexação envolvendo indexação móvel e canonização.
Alguns meses atrás, eu experimentei um bug de indexação pessoalmente quando descobri que meu Ultimate Guide to Indexing SEO não estava indexado.
Após uma pesquisa completa, descobri que o Google indexou a versão errada do URL sem motivo aparente. Você pode aprender mais sobre esse bug em particular no meu artigo My Ultimate Guide to Indexing SEO Isn't Indexed.
No início deste ano, encontrei outro bug de indexação, indicando que o Google pode estar perdendo o controle dos URLs na fila de indexação.
Vamos decompô-lo passo a passo.
URL esquecido na fila de indexação do Google
No dia 6 de outubro, publicamos um artigo: Rendering SEO: How Google Digests Your Content. O artigo era uma transcrição de uma conversa entre Bartosz Goralewicz da Onely, Martin Splitt do Google e Jason Barnard da Kalicube.
Infelizmente, durante as três semanas desde a data de publicação, o artigo não trouxe nenhum tráfego do Google.

Achei estranho — outro artigo interessante não indexado pelo Google? O Google sofre de outro bug de indexação?
Como me esforço para entender os detalhes do processo de indexação do Google, decidi realizar uma pequena investigação.
Verifiquei o que o Google Search Console tinha a dizer sobre esse URL.
O GSC afirmou que este URL foi "Descoberto - atualmente não indexado".

Ao consultar a documentação do Google, você encontrará a seguinte explicação sobre o status:
Descoberto – atualmente não indexado: a página foi encontrada pelo Google, mas ainda não foi rastreada.fonte: Google
O status do URL parecia altamente improvável. Eu não podia acreditar que o Google não rastreou esta página dentro de três semanas após a publicação em um site relativamente pequeno.
Então, eu verifiquei nossos logs do servidor.
Os logs do servidor permitem que você examine o tráfego que chega ao seu site. Eles contêm informações sobre cada solicitação, incluindo hora e data, string do agente do usuário, endereço IP etc. Graças a essas informações, pude ver se (e quando) o Googlebot estava nesta página.
Surpreendentemente, descobri que o Googlebot visitou a página no dia em que publicamos o artigo!
Nesse ponto, eu tinha duas informações cruciais:
- Os dados do Google Search Console de que o Googlebot ainda não havia visitado a página não eram verdadeiros. Os registros do servidor provaram que o Googlebot visitou o URL no dia em que o artigo foi publicado.
- Não foi apenas um bug de relatório do Google Search Console. A página não estava recebendo nenhum tráfego orgânico, então havia problemas claramente mais significativos do que apenas erros no relatório.
Mais sites sofrem com o bug de indexação do Google
Eu queria saber mais sobre esse bug e sua escala, então pesquisei uma amostra maior de sites para tirar conclusões acionáveis.

Coletei logs do servidor de quatro outros sites e mergulhei nos dados.
Descobriu-se que 100% dos sites que examinei sofriam desse mesmo problema. Houve vários URLs visitados pelo Googlebot, mas classificados incorretamente pelo Google Search Console como:
- Descoberto – atualmente não indexado, ou
- Desconhecido.
No caso do status Desconhecido, parece que o Google afirma que nunca visitou a página e não tem memória de descobrir o URL.

Descobri que o problema estava presente em uma das páginas testadas mesmo 6 meses depois que o Google a visitou inicialmente. De acordo com os logs do servidor, a última visita foi em 7 de março, mas em 27 de outubro, o status ainda era Desconhecido.
Parece que o Google ocasionalmente esquece os URLs em algum ponto do pipeline de indexação. Não está claro se o mecanismo de pesquisa está apenas perdendo o controle de alguns URLs ou omitindo-os deliberadamente.
De qualquer forma, as consequências são graves. As páginas esquecidas não recebem nenhum tráfego orgânico.
Uma possível solução para o bug
Dan Shure compartilhou um caso interessante relacionado ao bug de URL esquecido.
Poderia "Descoberto - mas atualmente não indexado" colocar um URL em algum tipo de 'lista negra'?
Pensei em compartilhar algo estranho e interessante que aconteceu com alguns posts no blog de um cliente.
(1/5) (Eu odeio fazer tópicos, mas isso precisa de um pequeno detalhe)
— Dan Shure (@dan_sure) 8 de novembro de 2021
Parece que mudar a URL foi suficiente para resolver o problema.
Dan Shure não foi o único que testou esta solução. Frank Olivo conseguiu quase ⅓ de seus artigos indexados alterando seus URLs!
Isso funcionou para cerca de 12 dos 38 artigos que testamos. Todos indexados no mesmo dia em que republicamos. Os artigos restantes ainda são "descobertos" quase um mês depois.
— Frank Olivo (@FrancoOlivo) 7 de dezembro de 2021
É possível que esses URLs tenham se enquadrado em padrões de URLs de baixa qualidade, então o Google não os estava rastreando e, portanto, os classificou como "Descoberto - atualmente não indexado" no Google Search Console.
Você pode convencer o Google a tratar a página como uma nova e rastreá-la novamente alterando o URL. Essa solução pode ajudar a indexar a página, mas é apenas uma solução alternativa. Isso não impede que o problema aconteça novamente. O Google deve resolver o problema e o bug deve ser corrigido permanentemente.
Empacotando
Conforme descrito no artigo, há um problema grave com a indexação. Não é tão aparente e espetacular quanto os bugs de indexação anteriores (por exemplo, conectados à canonização), mas ainda pode impactar negativamente qualquer site.
Se você é um funcionário do Google e deseja investigar o problema, posso compartilhar alguns exemplos de URLs que sofreram com esse problema.
Você notou esse bug ou um bug de indexação semelhante em seu site? Avise!
