5 erros para evitar em seus Sitemaps
Publicados: 2022-03-15Criamos uma ferramenta que nos permite verificar quantas páginas de um determinado site estão indexadas no Google .
Até agora, verificamos centenas de sites e a ferramenta nos ajudou a diagnosticar problemas de SEO com os quais nossos clientes estavam lidando, como aqueles relacionados ao orçamento de rastreamento e à indexação.
Muitas vezes encontramos anomalias de dados ao investigar esses problemas e vemos muitos sites com erros graves em seus mapas do site.
Como isso pode afetar seu site?
Se o seu sitemap não for implementado corretamente, o Googlebot pode gastar muito tempo rastreando URLs de baixa qualidade, o que é um desperdício de orçamento de rastreamento. Como resultado, muitos URLs valiosos em seu website podem não ser indexados no Google , porque ele não terá recursos suficientes para rastreá-los.
Quais erros os sites populares estão cometendo em seus sitemaps e como você os evita para garantir que o Google não desperdice o orçamento de rastreamento em conteúdo irrelevante?
Vamos cavar.
Qual é o orçamento de rastreamento?
Primeiro, deixe-me explicar o que é o orçamento de rastreamento e como exatamente ele é relevante para a indexação de sites.
O Google é capaz de rastrear muito conteúdo, mas seus recursos não são infinitos – por isso precisa fazer escolhas com os recursos que possui.
É por isso que o Googlebot define um orçamento de rastreamento para todos os sites – o número de URLs que ele pode e deseja rastrear.
O orçamento de rastreamento de um site depende de duas métricas :
- Limite de capacidade de rastreamento – calculado para rastrear todo o conteúdo importante em um site sem sobrecarregar os limites de seu servidor – e,
- Demanda de rastreamento – determinada pelo tamanho, popularidade e frequência de atualização de um site.
Se o site ficar lento ou responder com erros do servidor, o limite diminui e o Googlebot rastreia menos.fonte: documentação do Google
Devido aos recursos limitados do Googlebot, você deve planejar quais URLs o Googlebot rastreia em seu site.
A chave para ajustar quais URLs são rastreados é explicada na documentação do Google:
Gerencie seu inventário de URLs: use as ferramentas apropriadas para informar ao Google quais páginas rastrear e quais não rastrear. Se o Google passar muito tempo rastreando URLs que não são apropriados para o índice, o Googlebot pode decidir que não vale a pena dar uma olhada no restante do seu site.fonte: documentação do Google
Para recapitular – aqui está o que sabemos até agora:
- Se seu site for lento, o Google poderá rastrear menos URLs, portanto, menos URLs chegarão ao índice do Google,
- Se o Google conseguir descobrir muitos URLs de baixa qualidade ao rastrear seu site, ele poderá decidir que a qualidade geral do seu site é baixa.
Aqui está uma dica crucial:
Com vários URLs de baixa qualidade para o Google rastrear, o Googlebot pode perder muito tempo ao rastreá-los e pode não conseguir rastrear muitos URLs de alta qualidade em seu site.
Isso tem mais peso para sites grandes ou que mudam rapidamente, porque eles precisam ser rastreados com frequência e extensivamente para atrair tráfego.
Como os sitemaps são importantes para seu orçamento de rastreamento?
Como expliquei, otimizar seu orçamento de rastreamento é uma etapa extremamente importante para a indexação do seu site.
Uma das maneiras de gerenciar seu inventário de URLs é criar e manter um sitemap bem otimizado.
Um mapa do site é um arquivo onde você fornece informações sobre as páginas, vídeos e outros arquivos em seu site e as relações entre eles […]. Um mapa do site informa ao Google quais páginas e arquivos você considera importantes em seu site e também fornece informações valiosas sobre esses arquivos. Por exemplo, quando a página foi atualizada pela última vez e qualquer versão de idioma alternativo da página.fonte: documentação do Google
No entanto, muitos sites não conseguem criar sitemaps bem otimizados. Felizmente, podemos aprender com seus erros.
Quais erros você deve evitar no seu mapa do site?
Analisei muitos sites populares e descobri que muitos deles cometem erros em seus sitemaps que afetam negativamente o orçamento de rastreamento, o que pode levar a problemas com a cobertura do índice.
Aqui está o meu detalhamento dos erros a serem evitados ao criar um mapa do site.
Como enviar URLs malformados
Um dos erros que descobri dizia respeito à estrutura de URLs em sitemaps.
Vamos analisá-lo olhando para um exemplo específico.
Whisky.de
Quando vi as estatísticas coletadas pelo nosso software, fiquei surpreso: ele mostrou que 0% das páginas do whisky.de enviadas em sitemaps estavam indexadas no Google.
Eu sabia que isso não podia ser verdade, então investiguei os dados mais a fundo.
A maioria dos URLs nos sitemaps do whisky.de pareciam válidos:
- Eles eram canônicos,
- Eles não foram bloqueados pela metatag de robôs noindex,
- Eles não foram bloqueados pela diretiva disallow em robots.txt,
- Eles estavam respondendo com um código de status 200.
Mas então notei que todos os URLs tinham barras duplas seguindo o domínio de nível superior – dê uma olhada neste exemplo:
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
- https://www.whisky.de//presse/pressespiegel/playboy.html
A barra dupla parece um erro programático óbvio ao gerar sitemaps e é fácil de corrigir.
No entanto, as páginas incluídas nos sitemaps têm tags canônicas que apontam para os respectivos URLs – suas versões corretas com uma única barra.

Como resultado, é altamente provável que o Google esteja visitando duas vezes mais URLs do que o pretendido: os URLs com barras simples e barras duplas.
O Google tem mecanismos para detectar padrões defeituosos em URLs e, tecnicamente falando, é possível que o Google tenha detectado o erro. Portanto, pode estar rastreando o whisky.de de acordo e indexando os URLs estruturados corretamente. Mas não há como verificar isso sem acesso à conta do Google Search Console do site ou aos logs do servidor.
Na prática, você não deve confiar nos algoritmos do Google para corrigir seus erros – práticas como a que descrevi podem sobrecarregar seu orçamento de rastreamento e até manter suas páginas fora do índice do Google.
Como enviar URLs de conteúdo fino
Há uma praga de sites que incluem páginas de conteúdo finas em seus mapas do site.
Deixe-me mostrar-lhe um exemplo.
Ann Taylor
Descobri esse erro no AnnTaylor.com, uma loja de roupas femininas de primeira linha.
Eu queria verificar quantas de suas categorias de produtos estavam indexadas no Google, então investiguei o mapa do site dedicado a páginas de categorias.
A verificação inicial mostrou que apenas 46% das páginas da categoria estavam indexadas no Google.
Então, examinei isso com mais detalhes e descobri que a maioria das páginas de categorias eram 404s suaves.
Especificamente, essas páginas exibiram a seguinte mensagem:

Não foi surpresa que o Google não quisesse indexá-los!
O próximo passo lógico foi excluir soft 404s da minha amostra. Para isso, verifiquei o status de indexação do mesmo sitemap, mas usei um gatilho que excluía as páginas que continham a frase “Pesquisamos com estilo e sem sorte”, conforme exemplificado na imagem acima.
Descobriu-se que, após excluir os URLs 404 flexíveis, até 82% das páginas em seu sitemap de categoria são indexadas.
Ainda assim, 18% das páginas de categorias não são indexadas no Google – é nisso que seus SEOs devem se concentrar em investigar.
A situação de AnnTaylor é grave pelos seguintes motivos:
- Em primeiro lugar, o Google está desperdiçando o orçamento de rastreamento no rastreamento de conteúdo fino.
- Além disso, não é um mistério que o Google julgue a qualidade em três níveis: página, seção e todo o site. O Google pode decidir que as páginas da categoria, em geral, são de baixa qualidade e todas elas podem ser desindexadas . No passado, isso acontecia com sites como Giphy, Instagram ou Pinterest, como descrevi em um dos meus artigos. Vamos torcer para que isso não aconteça com AnnTaylor.
Ignorando URLs valiosos
Como já mencionei, os sitemaps ajudam o Google a entender melhor seu site e rastreá-lo de forma mais inteligente.
No entanto, notei que muitos sites não incluem seus URLs mais valiosos nos sitemaps.
Aqui está um exemplo.
GoodReads
Verifiquei uma amostra geral (retirada de todos os URLs de sitemaps ) para GoodReads e descobri que apenas 35% deles foram indexados.
Fiquei muito surpreso, pois sei que é um site de altíssima qualidade. Sei que não sou o único que visita o GoodReads para ler resenhas e saber se vale a pena ler um determinado livro.
Então, vi que a amostra que verificamos não tinha URLs com livros incluídos. Então eu decidi baixar todos os seus sitemaps.
O resultado: não há URLs com livros em sitemaps.
Por que é um mau sinal?
Existe o risco de o Google priorizar os URLs encontrados nos mapas do site e, de alguma forma, pular as páginas dos produtos.
Isenção de responsabilidade: GoodReads não é nosso cliente. Então, tecnicamente falando, é possível que eles tenham um sitemap privado enviado ao Google Search Console.
Uso excessivo do parâmetro <lastmod>
Um dos parâmetros que você pode incluir em seu arquivo de sitemap é <lastmod>, especificando a última vez que uma página foi atualizada. Dessa forma, o Google pode escolher facilmente URLs que mudaram recentemente.
No entanto, alguns sites usam essa técnica em excesso. E fazer isso pode ter efeitos adversos porque, como lemos nas diretrizes do Google, “ o Google usa o valor <lastmod> se for consistente e verificável (por exemplo, comparando com a última modificação da página) preciso”.
Vejamos um exemplo de um site que usa excessivamente o parâmetro <lastmod>.
Avon
Eu olhei para o mapa do site do produto da Avon e todos os URLs listados têm o mesmo parâmetro <lastmod> – o dia atual:

É seguro assumir que nem todos os URLs da Avon mudam diariamente, então o Google está relutante em indexar suas páginas.
Vinculação ao seu ambiente de teste nos mapas do site
É bastante comum o Google indexar URLs de teste.
Geralmente é um mistério como o Google encontra links para essas páginas. Mas uma explicação comum é que esses URLs estão vinculados diretamente aos mapas do site.
Acehardware. com
Observe que acehardware.com atualizou os mapas do site e corrigiu o erro abaixo.
Aqui está uma amostra que verifiquei inicialmente.
Como você pode ver, descobri que eles estavam linkando para o site de teste a partir do mapa do site.

Por que é ruim incluir seu ambiente de teste em um mapa do site?
- O Google rastreia URLs desnecessários.
- Se os URLs de teste forem indexados, eles confundem os usuários que procuram uma determinada informação e se deparam com eles nos resultados da pesquisa.
Práticas recomendadas a serem seguidas em sitemaps
Você passou pela minha visão geral das coisas a serem evitadas ao criar e gerenciar um mapa do site para um site.
Então, agora, quais são algumas práticas que você deve seguir?
Aqui estão algumas práticas recomendadas que eu recomendo:
– Inclua apenas URLs canônicos em seus sitemaps.
– O tamanho máximo do sitemap deve ser de 50.000 URLs. Você pode dividi-los em sitemaps menores se tiver mais URLs.
– Não inclua IDs de sessão de seus URLs em sitemaps – dessa forma, você pode reduzir o rastreamento duplicado dos URLs fornecidos.
– Use URLs consistentes e completos – inclua URLs absolutos em vez de relativos.
Como mencionei, certifique-se de que seus sitemaps incluam apenas URLs valiosos. Você pode realizar um rastreamento completo do site para verificar se algum URL encontrado em um rastreamento está faltando no seu sitemap.
Esta é apenas a ponta do iceberg quando se trata de otimizar seu sitemap – para mais recomendações, leia nosso guia definitivo para sitemaps XML.
Empacotando
Os Sitemaps são valiosos para todos os sites.
No entanto, como você pode ver nos exemplos de sites que listei, muitos sites populares não têm sitemaps otimizados, o que tem um custo – sua cobertura de índice é fortemente afetada.
Além disso, lembre-se de que erros de SEO em sitemaps podem afetar negativamente seu orçamento de rastreamento, o que é crucial se você tiver um site médio ou grande.
Espero que agora você saiba quais erros evitar e esteja no caminho certo para criar um mapa do site que ajude o Google a rastrear seu site com mais eficiência, levando a uma melhor cobertura do índice.
