Cómo arreglar "Descubierto - Actualmente no indexado" en Google Search Console

Publicado: 2022-01-11

La documentación de Google define el estado Descubierto: actualmente no indexado en el informe de cobertura de índices de Google como:

Google encontró la página, pero aún no la rastreó. Por lo general, Google quería rastrear la URL, pero se esperaba que esto sobrecargara el sitio; por lo tanto, Google reprogramó el rastreo. Este es el motivo por el que la fecha del último rastreo está vacía en el informe.
fuente: informe de cobertura de índices de Google

Tomek Rudzki investigó los problemas de indexación más comunes que se muestran en Google Search Console y descubrió que Descubierto, actualmente no indexado, es uno de ellos, justo al lado de:

contenido duplicado,
Rastreado: actualmente no indexado,
404 suaves, y
Problemas de rastreo.

Abordar el problema Descubierto: actualmente no indexado debe ser una prioridad, ya que puede afectar a muchas páginas e indica que algunas de sus páginas no se han rastreado y posteriormente indexado.

Este problema puede deberse a muchos factores que, si no se abordan, pueden hacer que algunas páginas nunca lleguen al índice de Google. Y si ese es el caso, no le traerán tráfico orgánico ni generarán conversiones.

Este artículo es una inmersión profunda en la sección Descubridos: actualmente no indexados del informe de cobertura de índices de Search Console, y se centra en analizar por qué sus páginas llegan allí y cómo solucionar los problemas que podrían estar causándolos.

ocultar contenido

1 Dónde encontrar el estado Descubierto: actualmente no indexado

2 Descubrimiento, rastreo e indexación

3 Cómo usar la sección de informe Descubierto: actualmente no indexado

4 Cuando la sección Descubierto - actualmente no indexado requiere acción

5 El impacto de Discovered: actualmente no indexado en sitios web pequeños frente a grandes

5.1 Al lanzar un sitio grande

6 Causas del Descubierto: estado actualmente no indexado y cómo solucionarlo

6.1 Problemas de calidad del contenido

6.2 Problemas de enlaces internos

6.3 Presupuesto de rastreo

6.3.1 Contenido de baja calidad

6.3.2 Mala estructura de enlaces internos

6.3.3 Errores en la implementación de redireccionamientos

6.3.4 Problemas del servidor

6.3.5 Sitios web pesados

6.4 Tener un nuevo sitio web

6.5 Información adicional sobre el direccionamiento Descubierto: actualmente no indexado

7 Descubierto: actualmente no indexado vs. Rastreado: actualmente no indexado

8 Resumiendo

Dónde encontrar el estado Descubierto: actualmente no indexado

Descubierto: actualmente no indexado es uno de los tipos de problemas en el informe de cobertura de índice en Google Search Console. El informe muestra los estados de rastreo e indexación de las páginas de su sitio web.

Descubierto: actualmente no indexado aparece en la categoría Excluidos , que incluye URL que Google no ha indexado pero, desde la perspectiva de Google, esta situación no es el resultado de un error.

Gráfico de informe de cobertura del índice de Google con la sección Excluidos

Al usar Google Search Console, puede hacer clic en el tipo de problema para ver una lista de las URL afectadas.

Es posible que descubra que tenía la intención de mantener algunas de las URL informadas fuera del índice, y eso está bien. Pero debe monitorear sus páginas valiosas : si alguna de ellas no ha sido indexada, verifique qué problemas ha encontrado Google.

Descubrimiento, rastreo e indexación

Antes de pasar a las características de Discovered (actualmente no indexado y abordando este problema), aclaremos qué se necesita para que una URL se clasifique en Google:

Google necesita encontrar una URL antes de poder rastrearla. Las URL se descubren más comúnmente siguiendo enlaces internos o externos, o mapas de sitio XML, que deben contener todas las páginas que deben indexarse.
Al rastrear las páginas, Google las visita y verifica su contenido. Google no tiene los recursos para rastrear todas las páginas que encuentra , y este hecho está detrás de muchos problemas de rastreo que experimentan los sitios.
Durante la indexación , Google extrae el contenido de las páginas y evalúa su calidad. Ser indexado es necesario para aparecer en los resultados de búsqueda y obtener tráfico orgánico de Google. Las páginas indexadas se evalúan en función de numerosos factores de clasificación , lo que determina cómo se clasifican en respuesta a las consultas de búsqueda que ingresan los usuarios en Google.

Ser indexado por Google es un desafío debido a la capacidad limitada de sus recursos, la web en constante crecimiento y porque Google espera un cierto nivel de calidad de las páginas que indexa.

Muchos factores técnicos y relacionados con el contenido pueden influir en que sus páginas no se rastreen o indexen.

Existen soluciones para aumentar las posibilidades de ser indexado. Éstos incluyen:

Tener una estrategia de rastreo que priorice el rastreo de partes valiosas de su sitio web,
Implementando enlaces internos,
Crear un mapa del sitio preciso que contenga todas las URL que deberían ser indexables, y
Escribir contenido valioso y de alta calidad.

Asegúrese de revisar la documentación de Google: hay una sección sobre las pautas a seguir para facilitar que Google rastree e indexe sus páginas.

Cómo usar la sección de informe Descubierto: actualmente no indexado

El estado Descubierto: actualmente no indexado es el lugar al que acudir para mantenerse al día con cualquier posible problema de rastreo.

Después de encontrar las URL en esta sección, compruebe si deben rastrearse en primer lugar.

Si es así, intente localizar un patrón en las URL que aparecen en el informe . Esto lo ayudará a identificar qué aspectos de estas URL podrían estar causando el problema.

Por ejemplo, el problema puede estar relacionado con URL en una categoría específica de productos, páginas con parámetros o aquellas con una estructura específica, lo que hace que todas se consideren contenido delgado.

Cuando la sección Descubierto - actualmente no indexado requiere acción

Las URL en Descubridas: actualmente no indexadas, no siempre requieren que realice cambios en su sitio web.

Es decir, no necesita hacer nada si:

El número de URL afectadas es bajo y se mantiene estable en el tiempo, o
El informe contiene direcciones URL que no deben rastrearse ni indexarse, por ejemplo, aquellas con etiquetas canónicas o 'noindex', o aquellas bloqueadas para rastrear en su archivo robots.txt.

Pero aún es crucial tener la sección de este informe bajo control.

Las URL requieren su atención si su número aumenta, o si consisten en URL valiosas que espera clasificar y generar un tráfico orgánico significativo.

El impacto de Discovered: actualmente no indexado en sitios web pequeños frente a grandes

El impacto de la sección Descubierto: actualmente no indexada puede diferir según el tamaño del sitio web.

Si tiene un sitio web más pequeño, que generalmente no excede las 10k URL, y sus páginas tienen contenido único y de buena calidad, el estado Descubierto, actualmente no indexado, a menudo se resolverá solo. Es posible que Google no encuentre ningún problema, pero simplemente aún no ha rastreado las URL enumeradas.

Los sitios pequeños generalmente no se ocupan de los problemas de presupuesto de rastreo y puede surgir un aumento en las páginas informadas debido a problemas de calidad del contenido o una estructura de enlace interna deficiente.

El estado Descubierto: actualmente no indexado puede ser particularmente grave para sitios grandes (más de 10k URL) y se aplica a miles o incluso millones de URL.

En Onely, hemos descubierto que los sitios web que contienen más de 100 000 URL suelen sufrir problemas de rastreo , que con frecuencia se originan en el presupuesto de rastreo desperdiciado.

Estos problemas suelen ocurrir en los sitios web de comercio electrónico . A menudo tienen contenido duplicado o escaso o contienen productos agotados o vencidos. Estas páginas normalmente carecerán de la calidad necesaria para entrar en la cola de indexación de Google, y mucho menos para ser rastreadas.

Al lanzar un sitio grande

Si solo está lanzando un sitio web grande, puede facilitar el trabajo de Googlebot desde el principio.

Si desea lanzar un sitio grande, no debe lanzar toda su estructura de inmediato si contiene muchas páginas vacías o sin terminar que solo se actualizarán más tarde. Googlebot se encontrará con estas páginas y las considerará de baja calidad, lo que plantea el riesgo de tener un presupuesto de rastreo bajo desde el principio. Y esta situación puede incluso tardar años en solucionarse.

Es mucho mejor agregar contenido a medida que lo lanza regularmente. De esta forma, Googlebot obtiene una impresión positiva de su calidad desde el principio.

Antes de lanzar, siempre debe tener una estrategia de indexación y rastreo y saber qué páginas debe visitar Google.

Causas del Descubierto: estado actualmente no indexado y cómo solucionarlo

Por lo general, las URL se clasificarán como descubiertas; actualmente no están indexadas debido a problemas de calidad del contenido, enlaces internos o presupuesto de rastreo.

Consideremos por qué puede estar viendo sus páginas con este estado y cómo solucionarlo.

Problemas de calidad del contenido

Google tiene umbrales de calidad que quiere que cumplan las páginas , ya que no puede rastrear e indexar todo en la web.

Google puede considerar que algunas páginas de su dominio no valen la pena rastrearlas y las omite, dando prioridad a otro contenido más valioso. Como resultado, estas URL se pueden marcar como descubiertas, actualmente no indexadas.

Vale la pena señalar que tener URL como Descubiertas, actualmente no indexadas, a menudo no se limita a las páginas marcadas, sino que podría ser un problema de calidad de contenido en todo el sitio, como dijo John Mueller . Si Google considera que su sitio es de baja calidad en comparación con otro contenido en la web, es posible que omita el rastreo y la indexación de sus páginas.

Para comenzar a abordar este problema, revise la lista de URL afectadas y asegúrese de que cada página tenga contenido único. El contenido debe satisfacer la intención de búsqueda del usuario y resolver un problema específico.

Le recomiendo que consulte las Directrices del evaluador de calidad que sigue Google al evaluar sitios web; le ayudarán a comprender qué busca Google en el contenido que se encuentra en la web.

Al mismo tiempo, no olvide que no debe indexar todas sus páginas.

Algunas páginas de baja calidad no deberían ser indexables , como:

Contenido desactualizado (como artículos de noticias antiguos),
Páginas generadas por un cuadro de búsqueda dentro de un sitio web,
Páginas generadas aplicando filtros,
contenido duplicado,
contenido generado automáticamente,
Contenido generado por el usuario.

Es mejor bloquear dichas secciones para que no sean rastreadas e indexadas en su archivo robots.txt.

Durante las horas de oficina de SEO el 31 de diciembre de 2021, John Mueller habló sobre cómo hacer cambios en la calidad de un sitio web como una forma de abordar Descubrido, actualmente no indexado:

[…] Hacer cambios de calidad más grandes en un sitio web lleva bastante tiempo para que los sistemas de Google los detecten. […] Esto es algo más del tipo de varios meses y no de varios días. […] Debido a que lleva tanto tiempo detectar los cambios de calidad, mi recomendación sería no hacer cambios pequeños y esperar y ver si es lo suficientemente bueno, sino asegurarse de que, si está haciendo cambios de calidad significativos, […] son cambios de muy buena calidad […]. No desea esperar unos meses y luego decidir: 'Oh, sí, en realidad también necesito cambiar algunas otras páginas'.
fuente: John Müller

Problemas de enlaces internos

Googlebot sigue los enlaces internos de su sitio para descubrir otras páginas y comprender las conexiones entre ellas. Por lo tanto, asegúrese de que sus páginas más importantes estén frecuentemente vinculadas internamente.

Martin Splitt habló sobre por qué las estructuras de enlace incorrectas podrían ser problemáticas en el seminario web Rendering SEO :

[…] Si tenemos como mil URL de usted, que están todas solo en el mapa del sitio y no las hemos visto en ninguna de las otras páginas que rastreamos, podríamos estar como, 'No sabemos qué tan importante esto realmente es' […]. En lugar de simplemente tenerlo en el mapa del sitio, vincúlelo desde otros lugares de su sitio web para que cuando rastreemos estas páginas, veamos '¡Ajá! Así que esta página, y esta página, y esta página apuntan a la página de este producto, así que tal vez sea un poco más importante que este otro producto que solo vive en el mapa del sitio' […].
fuente: Martín Splitt

La vinculación interna adecuada gira en torno a la conexión de sus páginas para crear una estructura lógica que ayude a los motores de búsqueda y a los usuarios a seguir la jerarquía de su sitio. La vinculación interna también está asociada con la forma en que se presenta la arquitectura de su sitio.

Ayudar a los motores de búsqueda a encontrar y asignar la importancia adecuada a sus páginas incluye:

Decidir cuál es su contenido principal y asegurarse de que esté vinculado desde otras páginas,
Agregar enlaces contextuales en su contenido,
Vincular páginas en función de su jerarquía, por ejemplo, vinculando páginas principales a páginas secundarias y viceversa, o incluyendo enlaces en la navegación del sitio,
Evitar colocar enlaces de forma fraudulenta y sobreoptimizar el texto de anclaje,
Incorporar enlaces a productos o publicaciones relacionadas.

También puede leer este artículo sobre cómo mejorar la estructura de enlaces internos.

presupuesto de rastreo

El presupuesto de rastreo es la cantidad de páginas que Googlebot puede y desea rastrear en un sitio web.

El presupuesto de rastreo de un sitio está determinado por:

Límite de tasa de rastreo: cuántas URL puede rastrear Google, que se ajusta a las capacidades de su sitio web,
Demanda de rastreo: cuántas URL desea rastrear Google, en función de la importancia que considera las URL, observando su popularidad y la frecuencia con la que se actualizan.

Desperdiciar el presupuesto de rastreo puede conducir a un rastreo ineficiente de su sitio web por parte de los motores de búsqueda. Como resultado, es posible que se salten algunas partes fundamentales de su sitio web.

Muchos factores pueden estar causando problemas con el presupuesto de rastreo, entre ellos:

Contenido de baja calidad,
Mala estructura de enlaces internos,
Errores en la implementación de redireccionamientos,
Servidores sobrecargados,
Sitios web pesados.

Antes de optimizar su presupuesto de rastreo, debe analizar exactamente cómo Googlebot rastrea su sitio.

Puede hacerlo navegando a otra herramienta útil en la consola de búsqueda: el informe de estadísticas de rastreo. Además, consulte los registros de su servidor para obtener información detallada sobre qué recursos ha rastreado Googlebot y qué ha omitido.

A continuación se presentan 5 aspectos que debe considerar para optimizar su presupuesto de rastreo y hacer que Google rastree algunas de las páginas descubiertas, actualmente no indexadas en su sitio:

Contenido de baja calidad

Si Googlebot puede rastrear libremente páginas de baja calidad, es posible que no tenga los recursos para acceder a las cosas valiosas de su sitio web.

Para evitar que los rastreadores de los motores de búsqueda rastreen ciertas páginas, aplique las directivas correctas en el archivo robots.txt.

También debe asegurarse de que su sitio web tenga un mapa del sitio correctamente optimizado que ayude a Googlebot a descubrir páginas indexables únicas en su sitio y notar cambios en ellas.

El mapa del sitio debe contener:

URL que responden con 200 códigos de estado,
URL sin etiquetas de meta robots que impidan que se indexen, y
Solo las versiones canónicas de tus páginas.

Mala estructura de enlaces internos

Si Google no encuentra suficientes enlaces que lleguen a una URL, puede omitir el rastreo debido a que no hay suficientes señales que indiquen su importancia.

Siga mis pautas descritas en el subcapítulo "Problemas de enlaces internos".

Errores en la implementación de redireccionamientos

La implementación de redirecciones puede ser beneficiosa para su sitio, pero solo si se hace correctamente. Cada vez que Googlebot encuentra una URL redirigida, debe enviar una solicitud adicional para llegar a la URL de destino, lo que requiere más recursos.

Asegúrese de seguir las mejores prácticas para implementar redireccionamientos. Puede redirigir tanto a los usuarios como a los bots desde las páginas de error 404 que se han vinculado desde fuentes externas a las páginas de trabajo, lo que lo ayudará a preservar las señales de clasificación.

Sin embargo, asegúrese de no vincular a las páginas redirigidas ; en su lugar, actualícelas para que apunten a las páginas correctas. También debe evitar los bucles y las cadenas de redireccionamiento.

Problemas del servidor

Google podría experimentar problemas de rastreo porque su sitio parece estar sobrecargado. Esto ocurre porque la frecuencia de rastreo, que afecta el presupuesto de rastreo, se ajusta a las capacidades de su servidor.

En un seminario web sobre Rendering SEO , Martin Splitt habló sobre los problemas del servidor relacionados con el rastreo de páginas de Google:

[…] Una cosa que veo que sucede con bastante frecuencia es que los servidores dan errores intermitentes, específicamente, 500 y algo, y cualquier cosa a la que su servidor responda con un 500, 501, 502, 504, lo que sea, significa que su servidor dice 'Espera , tengo un problema aquí' […], y podría caerse en cualquier momento, así que estamos retrocediendo. Cada vez que retrocedemos y su servidor responde positivamente, generalmente estamos aumentando lentamente nuevamente. Imagine tener una respuesta de 500 y tantos todos los días.
Estamos viendo esto, estamos retrocediendo un poco, estamos volviendo a subir, lo estamos viendo de nuevo […]. Debería investigar si su servidor responde negativamente.
fuente: Martín Splitt

Consulte con su proveedor de alojamiento si hay algún problema con el servidor en su sitio.

Los problemas del servidor también pueden deberse a un rendimiento web deficiente. Obtenga más información leyendo nuestro artículo sobre el rendimiento web y el presupuesto de rastreo.

Sitios web pesados

Los problemas de rastreo pueden deberse a que algunas páginas son demasiado pesadas. Es posible que Google simplemente no tenga recursos suficientes para rastrearlos y procesarlos.

Todos los recursos que Googlebot necesita obtener para mostrar su página cuentan para su presupuesto de rastreo. En este caso, Google ve una página pero la empuja más en la cola de prioridad.

Debe optimizar los archivos JavaScript y CSS de su sitio para reducir el impacto negativo de su código.

Tener un nuevo sitio web

Tomek Rudzki creó una encuesta de Twitter en la que preguntó a la comunidad de SEO sobre problemas de indexación en sitios nuevos. Y, según los resultados de la encuesta, casi el 40 % de las personas experimentaban tales problemas:

¿Tiene problemas con la indexación de los nuevos sitios web RECIENTEMENTE?
– Tomek Rudzki (@TomekRudzki) 7 de diciembre de 2021

Durante una de las sesiones de SEO Office Hours, un participante mencionó su nuevo sitio web que se lanzó hace 2 meses, donde muchas páginas estaban marcadas como Descubiertas, actualmente no indexadas. Luego preguntó cuánto tiempo se debe esperar que aparezcan páginas con este estado, a lo que John respondió:

Eso puede ser para siempre […]. Y especialmente con un sitio web más nuevo, si tiene mucho contenido, supongo que se espera que gran parte del contenido nuevo se descubra y no se indexe durante un tiempo. Y luego, con el tiempo, por lo general, cambia. Y es como, bueno, en realidad se rastrea o se indexa cuando vemos que realmente vale la pena centrarse más en el sitio web en sí.
fuente: John Müller

Por lo general, no existen soluciones rápidas para indexar las páginas, pero mirar los aspectos de SEO que describí anteriormente puede ayudarlo a tener una mejor oportunidad de indexarlos.

Está claro que Google quiere asegurarse de indexar solo contenido de alta calidad y estos umbrales de calidad parecen estar aumentando. Pero esto es particularmente desafiante para los nuevos sitios web que necesitan demostrarle a Google, una y otra vez, que su contenido merece estar en el índice.

Información adicional sobre direccionamiento Descubierto – actualmente no indexado

Durante el horario de oficina de SEO, se le preguntó a John Mueller sobre cómo resolver el problema de alrededor del 99 % de las URL en un sitio web atascado en la sección de informe Descubrido, actualmente no indexado.

Las recomendaciones de John giraron en torno a tres pasos principales:

[…] Antes que nada, tal vez miraría […] que no está generando URL accidentalmente con diferentes patrones de URL, […] cosas como los parámetros que tiene en su URL, en mayúsculas y minúsculas, todas estas cosas pueden conducir para esencialmente duplicar el contenido . Y si hemos descubierto muchas de estas URL duplicadas, podríamos pensar que en realidad no necesitamos rastrear todos estos duplicados porque ya tenemos alguna variación de esta página allí […]. Asegúrese de que desde el enlace interno, todo esté bien. Que podríamos rastrear todas estas páginas en su sitio web y llegar al final. Puede probar esto aproximadamente usando una herramienta de rastreo o algo como Screaming Frog o Deep Crawl . […] Básicamente, le dirán si pueden rastrear su sitio web y mostrarle las URL que se encontraron durante ese rastreo. Si ese rastreo funciona, me centraría mucho en la calidad de estas páginas . Si está hablando de 20 millones de páginas y el 99% de ellas no están indexadas, entonces solo estamos indexando una parte muy pequeña de su sitio web. […] Tal vez tenga sentido decir: 'Bueno, ¿y si reduzco el número de páginas a la mitad o incluso […] al 10 % del recuento actual?'. […] En general, puede mejorar un poco la calidad del contenido al tener un contenido más completo en estas páginas. Y para nuestros sistemas, es un poco más fácil mirar estas páginas y decir: 'Bueno, estas páginas […] en realidad se ven bastante bien. Deberíamos salir y gatear e indexar mucho más'.
fuente: John Müller

En otra sesión de Horas de oficina el 18 de febrero de 2022, se le preguntó una vez más a John sobre una gran cantidad de URL que aparentemente estaban bloqueadas como "Descubiertas, actualmente no indexadas".

Y John dijo que muchas veces es normal tener muchas páginas con este estado:

[…] Hasta cierto punto, simplemente aceptaría que Google no puede rastrear e indexar todo. […] Si reconoce, por ejemplo, que […] los productos individuales no se están rastreando ni indexando, asegúrese de que al menos la página de categoría de esos productos se rastree e indexe. Porque de esa manera, las personas aún pueden encontrar contenido para esos productos individuales en su sitio web […].
fuente: John Müller

Los miembros de la comunidad de SEO han estado informando un aumento en el número de páginas marcadas como Descubiertas, actualmente no indexadas durante meses. Algunos están probando soluciones alternativas para abordar este problema.

Dan Shure decidió probarlo moviendo el contenido atascado a diferentes URL, lo que resultó en que se indexaran.

Por lo tanto, parece posible que muchas de estas páginas simplemente se atasquen después de quedarse inicialmente con este estado.

Descubierto: actualmente no indexado vs. Rastreado: actualmente no indexado

Estos dos estados comúnmente se confunden y, aunque están conectados, significan cosas diferentes.

En ambos casos, las URL no se han indexado pero, con Rastreado, actualmente no indexado, Google ya ha visitado la página . Con Descubierto: actualmente no indexado, Google encontró la página pero no la rastreó.

Rastreado: actualmente indexado a menudo se debe a un retraso en la indexación, problemas de calidad del contenido, problemas de arquitectura del sitio o una página podría haber sido desindexada.

También tenemos un artículo detallado que explica cómo solucionar Rastreado, actualmente no indexado.

Terminando

Descubierto: actualmente no indexado tiende a ser causado por la calidad de la página y problemas de presupuesto de rastreo.

Solucionar estos problemas, y ayudar a Google a rastrear sus páginas de manera eficiente y precisa en el futuro, puede requerir que revise muchos aspectos de sus páginas y las optimice.

Aquí hay algunas cosas principales que pueden ayudar a evitar problemas con páginas descubiertas, actualmente no indexadas:

Utilice robots.txt para evitar que Googlebot rastree páginas de baja calidad y se centre en contenido duplicado, por ejemplo, páginas generadas por filtros o cuadros de búsqueda en su sitio.
Tómese el tiempo para crear un mapa del sitio adecuado que Google pueda usar para descubrir sus páginas.

Mantenga intacta la arquitectura de su sitio y asegúrese de que sus páginas cruciales estén vinculadas internamente.
Tenga una estrategia de indexación para priorizar las páginas que son más valiosas para usted.
Optimice teniendo en cuenta el presupuesto de rastreo.