5 errores que debes evitar en tus sitemaps
Publicado: 2022-03-15Hemos creado una herramienta que nos permite comprobar cuántas páginas de un sitio determinado están indexadas en Google .
Hasta ahora, revisamos cientos de sitios web y la herramienta nos ayudó a diagnosticar los problemas de SEO con los que se enfrentaban nuestros clientes, como los relacionados con el presupuesto de rastreo y la indexación.
A menudo encontramos anomalías en los datos cuando investigamos estos problemas y vemos muchos sitios web con errores graves en sus mapas de sitio.
¿Cómo podría afectar esto a su sitio web?
Si su mapa del sitio no se implementa correctamente, Googlebot puede pasar mucho tiempo rastreando URL de baja calidad, lo que es una pérdida de presupuesto de rastreo. Como resultado, es posible que Google no indexe muchas URL valiosas de su sitio web , ya que no tendrá recursos suficientes para rastrearlas.
¿Qué errores están cometiendo los sitios web populares en sus sitemaps y cómo los evita para asegurarse de que Google no desperdicie el presupuesto de rastreo en contenido irrelevante?
Vamos a profundizar en.
¿Qué es el presupuesto de rastreo?
Primero, déjame explicarte qué es el presupuesto de rastreo y cómo es exactamente relevante para la indexación de sitios web.
Google puede rastrear una gran cantidad de contenido, pero sus recursos no son infinitos , por lo que debe tomar decisiones con los recursos que tiene.
Es por eso que Googlebot define un presupuesto de rastreo para todos los sitios web: la cantidad de URL que puede y quiere rastrear.
El presupuesto de rastreo de un sitio depende de dos métricas :
- Límite de capacidad de rastreo: calculado para rastrear todo el contenido importante de un sitio web sin sobrepasar los límites de su servidor, y
- Demanda de rastreo: determinada por el tamaño, la popularidad y la frecuencia de actualización de un sitio web.
Si el sitio se ralentiza o responde con errores del servidor, el límite se reduce y Googlebot rastrea menos.fuente: documentación de Google
Debido a las capacidades limitadas de Googlebot, debe planificar qué URL rastrea Googlebot en su sitio web.
La clave para ajustar qué URL se rastrean se explica en la documentación de Google:
Administre su inventario de URL: use las herramientas apropiadas para decirle a Google qué páginas rastrear y cuáles no. Si Google pasa demasiado tiempo rastreando URL que no son apropiadas para el índice, Googlebot podría decidir que no vale la pena mirar el resto de su sitio.fuente: documentación de Google
En resumen, esto es lo que sabemos hasta ahora:
- Si su sitio web es lento, Google puede rastrear menos URL, por lo tanto, menos URL encontrarán su camino en el índice de Google.
- Si Google puede descubrir muchas URL de baja calidad al rastrear su sitio, puede decidir que la calidad general de su sitio es baja.
Aquí hay una conclusión crucial:
Con toneladas de URL de baja calidad para que Google rastree, Googlebot puede perder mucho tiempo rastreándolas y es posible que no pueda rastrear muchas URL de alta calidad en su sitio web.
Esto tiene más peso para los sitios web grandes o que cambian rápidamente porque deben rastrearse con frecuencia y de manera extensa para atraer tráfico.
¿Qué importancia tienen los sitemaps para su presupuesto de rastreo?
Como expliqué, optimizar su presupuesto de rastreo es un paso extremadamente importante para la indexación de su sitio.
Una de las formas de administrar su inventario de URL es crear y mantener un mapa del sitio bien optimizado.
Un mapa del sitio es un archivo en el que proporciona información sobre las páginas, videos y otros archivos en su sitio, y las relaciones entre ellos […]. Un mapa del sitio le dice a Google qué páginas y archivos cree que son importantes en su sitio y también proporciona información valiosa sobre estos archivos. Por ejemplo, cuándo se actualizó la página por última vez y cualquier versión de idioma alternativo de la página.fuente: documentación de Google
Sin embargo, muchos sitios web no logran crear mapas de sitio bien optimizados. Afortunadamente, podemos aprender de sus errores.
¿Qué errores debes evitar en tu mapa del sitio?
Analicé muchos sitios populares y descubrí que muchos de ellos cometen errores en sus mapas de sitio que afectan negativamente su presupuesto de rastreo, lo que podría generar problemas con la cobertura de su índice.
Aquí está mi desglose de los errores que se deben evitar al crear un mapa del sitio.
Envío de URL mal formadas
Uno de los errores que descubrí se refería a la estructura de las URL en los mapas de sitio.
Analicémoslo mirando un ejemplo específico.
Whisky.de
Cuando vi las estadísticas recopiladas por nuestro software, me quedé atónito: mostró que el 0% de las páginas de whisky.de enviadas en los mapas del sitio estaban indexadas en Google.
Sabía que esto no podía ser cierto, así que investigué los datos más a fondo.
La mayoría de las URL en los sitemaps de whisky.de parecían válidas:
- eran canónicos,
- No fueron bloqueados por la metaetiqueta de robots noindex,
- No fueron bloqueados por la directiva de rechazo en robots.txt,
- Estaban respondiendo con un código de estado 200.
Pero luego me di cuenta de que todas las URL tenían barras dobles después del dominio de nivel superior; eche un vistazo a este ejemplo:
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
- https://www.whisky.de//presse/pressespiegel/playboy.html
La barra doble parece un error programático obvio al generar mapas de sitios y uno que es fácil de arreglar.
Sin embargo, las páginas incluidas en los mapas de sitio tienen etiquetas canónicas que apuntan a las URL respectivas: sus versiones correctas con una sola barra.
Como resultado, es muy probable que Google visite el doble de URL de lo previsto: las URL con barras simples y barras dobles.

Google tiene mecanismos para detectar patrones defectuosos en las URL y, técnicamente hablando, es posible que Google haya detectado el error. Por lo tanto, podría estar rastreando whisky.de en consecuencia e indexando las URL estructuradas correctamente. Pero no hay forma de que podamos verificar eso sin acceso a la cuenta de Google Search Console o los registros del servidor del sitio web.
En la práctica, no debe confiar en los algoritmos de Google para corregir sus errores ; prácticas como la que describí pueden ejercer presión sobre su presupuesto de rastreo e incluso mantener sus páginas fuera del índice de Google.
Envío de URL de contenido ligero
Hay una plaga de sitios web que incluyen páginas de contenido reducido en sus mapas de sitio.
Dejame mostrarte un ejemplo.
anntaylor
Descubrí este error en AnnTaylor.com, una de las mejores tiendas de ropa para mujeres.
Quería verificar cuántas de sus categorías de productos estaban indexadas en Google, así que investigué su mapa del sitio dedicado a las páginas de categorías.
La verificación inicial mostró que solo el 46% de las páginas de categorías estaban indexadas en Google.
Entonces, investigué esto con más detalle y aprendí que la mayoría de sus páginas de categoría eran 404 suaves.
En concreto, estas páginas mostraban el siguiente mensaje:

¡No fue una sorpresa que Google no quisiera indexarlos!
El siguiente paso lógico fue excluir los soft 404 de mi muestra. Para ese propósito, verifiqué el estado de indexación del mismo mapa del sitio, pero usé un activador que excluyó las páginas que contenían la frase "Buscamos con estilo y sin suerte", como se ejemplifica en la imagen de arriba.
Resultó que después de excluir las URL 404 blandas, se indexa hasta el 82% de las páginas en su mapa del sitio de categoría.
Aún así, el 18% de las páginas de categorías no están indexadas en Google ; eso es lo que sus SEO deberían enfocarse en investigar.
La situación de AnnTaylor es grave por las siguientes razones:
- En primer lugar, Google está desperdiciando el presupuesto de rastreo rastreando contenido delgado.
- Además, no es un misterio que Google juzga la calidad en tres niveles: página, sección y todo el sitio. Google puede decidir que las páginas de categoría, en general, son de baja calidad y todas ellas podrían ser desindexadas . En el pasado, sucedió con sitios web como Giphy, Instagram o Pinterest, como describí en uno de mis artículos. Esperemos que no le pase a AnnTaylor.
Omitir URL valiosas
Como ya mencioné, los sitemaps ayudan a Google a comprender mejor su sitio web y rastrearlo de manera más inteligente.
Sin embargo, noté que muchos sitios web no incluyen sus URL más valiosas en los sitemaps.
Aquí hay un ejemplo.
Buenas lecturas
Revisé una muestra general (tomada de todas las URL de los mapas del sitio) para GoodReads y descubrí que solo el 35% de ellos estaban indexados.
Me sorprendió mucho, ya que sé que es un sitio web de muy alta calidad. Sé que no soy el único que visita GoodReads para leer reseñas y saber si vale la pena leer un libro en particular.
Luego, vi que la muestra que revisamos no tenía URL con libros incluidos. Así que decidí descargar todos sus mapas de sitio.
El resultado: ninguna URL con libros en los sitemaps.
¿Por qué es una mala señal?
Existe el riesgo de que Google priorice las URL que se encuentran en los mapas del sitio y, de alguna manera, omita visitar las páginas de productos.
Descargo de responsabilidad: GoodReads no es nuestro cliente. Entonces, técnicamente hablando, es posible que tengan un mapa del sitio privado enviado a Google Search Console.
Uso excesivo del parámetro <lastmod>
Uno de los parámetros que puede incluir en su archivo de mapa del sitio es <lastmod>, que especifica la última vez que se actualizó una página. De esta forma, Google puede elegir fácilmente las URL que cambiaron recientemente.
Sin embargo, algunos sitios web abusan de esta técnica. Y hacerlo podría tener efectos adversos porque, como leemos en las pautas de Google, " Google usa el valor <lastmod> si es consistente y verificable (por ejemplo, comparándolo con la última modificación de la página) preciso".
Veamos un ejemplo de un sitio que abusa del parámetro <lastmod>.
Avon
Miré el mapa del sitio del producto de Avon y todas las URL enumeradas tienen el mismo parámetro <lastmod>: el día actual:

Es seguro asumir que no todas las URL de Avon cambian a diario, por lo que Google se resiste a indexar sus páginas.
Vinculación a su entorno de ensayo dentro de los mapas del sitio
Es bastante común que Google indexe las URL de preparación.
Por lo general, es un misterio cómo Google encuentra enlaces a tales páginas. Pero una explicación común es que estas URL están vinculadas directamente desde los mapas del sitio.
Acehardware.com
Tenga en cuenta que acehardware.com actualizó los mapas del sitio y solucionó el error a continuación.
Aquí hay una muestra que verifiqué inicialmente.
Como puede ver, descubrí que estaban vinculando al sitio de prueba desde su mapa del sitio.

¿Por qué es malo incluir su entorno de prueba en un mapa del sitio?
- Google rastrea las URL innecesarias.
- Si las URL provisionales están indexadas, confunden a los usuarios que buscan una información en particular y se tropiezan con ellos en los resultados de búsqueda.
Buenas prácticas a seguir en sitemaps
Ha repasado mi descripción general de las cosas que se deben evitar al crear y administrar un mapa del sitio para un sitio web.
Ahora bien, ¿cuáles son algunas prácticas que debe seguir?
Estas son algunas de las mejores prácticas que recomiendo:
– Solo incluya URL canónicas en sus mapas de sitio.
– El tamaño máximo del mapa del sitio debe ser de 50 000 URL. Puede dividirlos en mapas de sitio más pequeños si tiene más URL.
– No incluya ID de sesión de sus URL en los mapas del sitio; de esta manera, puede reducir el rastreo duplicado de las URL dadas.
– Utilice direcciones URL coherentes y completas: incluya direcciones URL absolutas en lugar de relativas.
Como mencioné, asegúrese de que sus mapas de sitio solo incluyan URL valiosas. Puede realizar un rastreo completo del sitio web para verificar si alguna URL encontrada en un rastreo falta en su mapa del sitio.
Esta es solo la punta del iceberg cuando se trata de optimizar su mapa de sitio. Para obtener más recomendaciones, lea nuestra guía definitiva sobre mapas de sitio XML.
Terminando
Los sitemaps son valiosos para todos los sitios web.
Sin embargo, como puede ver en los ejemplos de sitios que enumeré, muchos sitios web populares no tienen mapas de sitio optimizados, lo que tiene un costo: la cobertura de su índice se ve muy afectada.
Además, tenga en cuenta que los errores de SEO en los mapas de sitio pueden afectar negativamente su presupuesto de rastreo, lo cual es crucial si tiene un sitio web mediano o grande.
Espero que ahora sepa qué errores debe evitar y estará en camino de crear un mapa del sitio que ayude a Google a rastrear su sitio de manera más eficiente, lo que conducirá a una mejor cobertura del índice.
