Guía definitiva de etiquetas Noindex para SEO

Publicado: 2022-02-14

Evitar que ciertas páginas aparezcan en los resultados de búsqueda es parte integral de su estrategia de indexación.

Uno de los métodos cruciales para controlar la indexación de su sitio es la directiva noindex en las etiquetas meta robots o x-robots-tags.

La etiqueta noindex se puede usar para decirles a los bots que una página no debe indexarse cuando aún desea que rastreen la página determinada y sigan los enlaces en ella.

Las implementaciones incorrectas de la directiva noindex pueden hacer que su contenido se elimine efectivamente del índice de Google.

Asegúrese de que eso no suceda: siga mi guía para saber cuándo usar la etiqueta noindex, cómo implementarla y las mejores prácticas a seguir.

ocultar contenido

1 ¿Qué es la etiqueta noindex?

1.1 Noindex frente a nofollow

2 ¿Cuándo debería usar la etiqueta noindex?

3 Cómo implementar la etiqueta noindex

3.1 Inserte la etiqueta noindex en el código HTML de una página

3.1.1 Ventajas y desventajas de las metaetiquetas de robots

3.2 Agregue la etiqueta noindex a los encabezados HTTP

3.2.1 Servidor Apache

3.2.2 Servidor Nginx

3.2.3 Pros y contras de usar encabezados HTTP

3.3 ¿Cómo puede verificar su implementación de la etiqueta noindex?

4 Más información sobre el uso de la etiqueta noindex

5 Comparación de etiquetas noindex, archivos robots.txt y etiquetas canónicas

5.1 Archivos robots.txt

5.2 Etiquetas canónicas

6 Terminando

¿Qué es la etiqueta noindex?

La etiqueta noindex es una etiqueta HTML que se usa para controlar la forma en que los bots tratan una página o archivo determinado en su sitio y evitan que indexen esa página o archivo.

Puede decirle a los motores de búsqueda que no indexen una página agregando una directiva noindex en una metaetiqueta de robots ; simplemente agregue el siguiente código a la sección <head> del HTML:

 <meta nombre=”robots” content=”noindex”>

Alternativamente, la etiqueta noindex se puede agregar como una etiqueta x-robots en un encabezado HTTP :

 x-robots-etiqueta: noindex

Cuando un robot de motor de búsqueda como Googlebot rastrea una página con la etiqueta noindex, no la indexará. Si la página se indexó previamente y la etiqueta se agregó más tarde, Google la eliminará de los resultados de búsqueda, incluso si otros sitios tienen un enlace a ella.

En general, los rastreadores de los motores de búsqueda no están obligados a seguir las metadirectivas, ya que sirven como sugerencias en lugar de reglas que deben respetar. Algunos rastreadores de motores de búsqueda pueden interpretar los valores meta de robots de manera diferente.

Sin embargo, la mayoría de los rastreadores de motores de búsqueda, como Googlebot, obedecen la directiva noindex.

Noindex frente a nofollow

Hay otras directivas de meta robots compatibles con Google; las más populares incluyen nofollow y follow. Sin embargo, la etiqueta de seguimiento es la configuración predeterminada si no se agregan metaetiquetas de robots, por lo que Google la considera innecesaria .

La etiqueta nofollow evita que los motores de búsqueda rastreen los enlaces de una página. Como resultado, las señales de clasificación de esa página no se transmitirán a las páginas a las que se vincula.

Es posible usar la directiva noindex por sí sola, pero también se puede combinar con otras directivas. Por ejemplo, puede agregar una etiqueta noindex y nofollow si no desea que los robots de los motores de búsqueda indexen una página y sigan los enlaces en ella.

Si implementó una etiqueta sin índice, pero su página aún aparece en los resultados de búsqueda, es probable que Google simplemente no haya rastreado la página desde que se agregó la etiqueta. Para solicitar a Google que vuelva a rastrear una página, puede utilizar la herramienta de inspección de URL.

¿Cuándo debería usar la etiqueta noindex?

Debe usar la etiqueta noindex para evitar que Google indexe las páginas.

Hacer que las páginas menos importantes no sean indexables es crucial porque Google no tiene suficientes recursos para rastrear e indexar cada página que encuentra en la web. Al mismo tiempo, debe identificar sus páginas valiosas que deben indexarse y priorizar su optimización.

Veamos en qué tipos de páginas debe implementar la etiqueta noindex para que no sean indexables.

Coloque la etiqueta noindex en:

Páginas de productos que están agotados y no volverán a estar disponibles.
Páginas con contenido duplicado, a menudo dominantes en los sitios web de comercio electrónico. También se recomienda utilizar etiquetas canónicas para señalar a los motores de búsqueda las versiones principales de sus páginas y evitar problemas de contenido duplicado.
Páginas a las que no se debería acceder en los resultados de búsqueda, por ejemplo, entornos de prueba o páginas protegidas con contraseña.
Páginas valiosas para los motores de búsqueda pero no para los usuarios, como páginas que contienen enlaces que ayudan a los bots a descubrir otras páginas.

Hacer que las páginas no sean indexables debe hacerse como parte de una estrategia de indexación bien establecida.

Nunca debe incluir noindex en páginas valiosas, como:

Páginas de productos más populares,
Artículos de blog (a menos que estén desactualizados),
Acerca de mí y páginas de contacto,
Páginas que describen los servicios que ofreces.

En general, nunca coloque noindex en páginas que espera generar un tráfico orgánico significativo.

Cómo implementar la etiqueta noindex

La etiqueta noindex se puede colocar en el código HTML de un sitio o en los encabezados de respuesta HTTP.

Algunos complementos de CMS como Yoast le permiten automáticamente no indexar las páginas que publica.

Repasemos los dos métodos principales de implementación paso a paso y analicemos sus ventajas y desventajas.

Inserte la etiqueta noindex en el código HTML de una página

La etiqueta noindex se puede implementar como una metaetiqueta de robots en el <head> del HTML de una página.

Las metaetiquetas de robots son códigos que se utilizan para controlar el rastreo y la indexación de un sitio web. Los usuarios no pueden verlos, pero los bots los encuentran mientras rastrean una página.

Aquí está cómo implementar el código:

 <!DOCTYPEhtml>
<html>
<cabeza>
<meta name="robots" content="noindex" >
</cabeza>
<cuerpo>
</cuerpo>
</html>

Aclaremos cómo se estructura una metaetiqueta de robots.

Dentro de una metaetiqueta, hay pares de atributos y valores:

 <metaatributo=”valor”>

La metaetiqueta Robots tiene dos atributos:

nombre: especifica el nombre de los robots del motor de búsqueda,
contenido: contiene directivas para bots.

Ambos atributos requieren valores diferentes según lo que desee que hagan los bots. Además, los atributos de nombre y contenido no distinguen entre mayúsculas y minúsculas.

El atributo de nombre normalmente tomará el valor de "robots", lo que indica que una directiva se dirige a todos los bots.

También es posible usar el nombre de un bot específico, como "googlebot", aunque encontrará esto con mucha menos frecuencia. Si desea abordar diferentes bots, deberá crear metaetiquetas separadas para cada uno de ellos.

Tenga en cuenta que los motores de búsqueda tienen diferentes rastreadores para diferentes propósitos : consulte la lista de rastreadores de Google.

Mientras tanto, el atributo de contenido contiene la directiva que deben seguir los bots. En nuestro caso, es “noindex”. Puede poner más de un valor allí y separar los atributos por comas.

Pros y contras de las metaetiquetas de robots

El método HTML es más fácil de implementar y modificar que el método del encabezado HTTP. Tampoco requiere que tengas acceso a tu servidor.

Sin embargo, implementar la etiqueta noindex en su HTML puede llevar mucho tiempo; deberá agregarlo manualmente a cada página que desee no indexar.

Agregue la etiqueta noindex a los encabezados HTTP

Otra solución es especificar la directiva noindex en una etiqueta x-robots.

Este es un elemento de una respuesta de encabezado HTTP . Los encabezados HTTP se utilizan para la comunicación entre un servidor y un cliente (un navegador o un motor de búsqueda).

Puede configurarlo en su servidor web HTTP. El código se verá ligeramente diferente según el servidor que esté utilizando, como Apache, Nginx u otros.

Este es un ejemplo del aspecto que puede tener una respuesta HTTP con una etiqueta x-robots:

 HTTP/1.1 200 Aceptar
(…)
x-robots-etiqueta: noindex
(…)

servidor apache

Si tiene un servidor basado en Apache y desea no indexar todos los archivos que terminan en ".pdf", debe agregar la directiva al archivo .htaccess .

Aquí está el código de ejemplo:

 <Archivos ~ "\.pdf$">
Conjunto de encabezados x-robots-tag "noindex"
</Archivos>

servidor nginx

Si tiene un servidor basado en Nginx , implemente la directiva en el archivo .conf :

 ubicación ~* \.pdf$ {
add_header x-robots-tag "noindex";
}

Pros y contras de usar encabezados HTTP

Una ventaja significativa de usar noindex en los encabezados HTTP es que puede usarlo en documentos web que no son páginas HTML , como archivos PDF, videos o imágenes. Además, este método le permite apuntar a una parte particular de la página.

Además, x-robots-tag admite el uso de expresiones regulares ( RegEx ). En otras palabras, puede orientar las páginas que no deben indexarse especificando qué tienen en común. Por ejemplo, puede dirigirse a páginas con URL que contengan parámetros o símbolos específicos.

Por otro lado, necesita acceso a su servidor para implementar una etiqueta x-robots.

Agregar la etiqueta también requiere habilidades técnicas y es más complicado que agregar las metaetiquetas de robots al HTML de un sitio web.

¿Cómo puede verificar su implementación de la etiqueta noindex?

Si desea verificar si noindex u otras metadirectivas de robots están implementadas, puede hacerlo en función de cómo se agregaron a una página.

Entonces, si la etiqueta noindex se agregó al HTML de una página, puede verificar su código fuente, mientras que para los encabezados HTTP, puede usar la opción Inspeccionar en Chrome . Estas herramientas le mostrarán qué directivas se reconocieron en una página determinada.

Otras opciones incluyen ingresar una URL en la herramienta de inspección de URL de Google Search Console o usar la extensión Link Redirect Trace .

Más información sobre el uso de la etiqueta noindex

Aquí hay algunas pautas adicionales sobre el uso de la etiqueta noindex y detalles sobre sus características:

Siempre que no incluya noindex en su código, la opción predeterminada es que los bots puedan indexar su página .
Tenga cuidado con los errores en el código, como incluir comas en los lugares correctos: los bots no entenderán sus comandos si la sintaxis es incorrecta.
Agregue las etiquetas en su código HTML o en los encabezados de respuesta HTTP, pero no en ambos. Hacerlo puede tener un impacto predominantemente negativo si las directivas en los respectivos lugares se contradicen entre sí. En este caso, Googlebot elegirá la directiva que limita la indexación.
Puede usar una directiva noimageindex que funcionará de manera similar a noindex pero solo evitará que se indexen las imágenes en una página determinada.
Después de un tiempo, los bots comienzan a ver noindex como nofollow. Muchas personas deshabilitan la indexación de páginas usando noindex, pero la combinan con la directiva de seguimiento para garantizar que los robots sigan rastreando los enlaces en una página. Pero Google ha explicado que una directiva de seguimiento no indexado eventualmente se tratará como no indexado, nofollow porque en algún momento, dejan de rastrear los enlaces en las páginas no indexadas. Como resultado, las páginas de destino del enlace pueden no estar indexadas y pueden recibir señales de clasificación disminuidas que pueden afectar negativamente su clasificación.
No use noindex en archivos robots.txt. Aunque esta y algunas otras reglas no se admitían oficialmente, los bots de los motores de búsqueda seguían las directivas noindex en los archivos robots.txt. Sin embargo, a partir de septiembre de 2019, Google anunció que había retirado el código que manejaba reglas no compatibles y no publicadas en archivos robots.txt, como noindex, en septiembre de 2019.

Comparación de etiquetas noindex, archivos robots.txt y etiquetas canónicas

Las etiquetas noindex, los archivos robots.txt y las etiquetas canónicas están relacionadas: se pueden usar para controlar el rastreo y/o la indexación de páginas .

Sin embargo, tienen algunas características distintivas que los hacen adecuados en diferentes situaciones.

Hemos establecido que las etiquetas noindex controlan si se deben indexar páginas específicas de un sitio web y funcionan a nivel de página.

Veamos cómo se compara esto con los archivos robots.txt y las etiquetas canónicas.

Archivos robots.txt

Los archivos Robots.txt se pueden usar para controlar cómo los robots de los motores de búsqueda rastrean partes de su sitio web a nivel de directorio.

Específicamente, los archivos robots.txt incluyen directivas para los robots de los motores de búsqueda, centrándose en "no permitir" o "permitir" su comportamiento. Si los bots siguen la directiva, no rastrearán las páginas no permitidas y las páginas no se indexarán.

Las directivas de Robots.txt se utilizan ampliamente para ahorrar el presupuesto de rastreo de un sitio web.

Tenga cuidado al implementar etiquetas noindex y configurar las reglas en los archivos robots.txt. Para que una directiva noindex sea efectiva, la página dada debe estar disponible para el rastreo, lo que significa que no puede ser bloqueada por el archivo robots.txt.

Si el rastreador no puede acceder a la página, no verá la etiqueta noindex y no la respetará. Luego, la página se puede rastrear y aparecer en los resultados de búsqueda, por ejemplo, si otras páginas están vinculadas a ella.

Para no indexar una página, permita rastrearla en robots.txt y use una metaetiqueta noindex para bloquear su indexación; Googlebot seguirá la directiva noindex.

Etiquetas canónicas

Las etiquetas canónicas son elementos HTML que informan a los motores de búsqueda qué página de varias similares es la versión principal y debe indexarse. Se colocan en páginas secundarias y especifican la URL canónica; como resultado, estas páginas secundarias no deben incluirse en el índice.

Las etiquetas canónicas pueden limitar la indexación de páginas que no son canónicas, pero Google no siempre respetará estas etiquetas . Por ejemplo, si Google encuentra más enlaces a otra página, puede tratarla como más importante que la URL canónica especificada y considerarla la versión principal.

Además, los bots solo pueden descubrir las etiquetas canónicas durante el rastreo. A diferencia de los archivos robots.txt, no se pueden usar para detener el rastreo de una página.

Una diferencia vital entre las etiquetas canónicas y las etiquetas sin índice es que las páginas canonicalizadas consolidan las señales de clasificación en una URL. Mientras tanto, las páginas no indexadas no pasarán las señales de clasificación , lo cual es vital en lo que respecta a los enlaces internos: no pasarán las señales de clasificación a las URL a las que se vinculan.

Terminando

Hacer que las páginas de baja calidad no sean indexables es una de las mejores prácticas de SEO para optimizar su estrategia de indexación, y usar la metaetiqueta noindex es una de las formas más óptimas de mantener una página fuera del índice de Google .

Con la etiqueta, puede bloquear la indexación de páginas sin importancia y, posteriormente, ayudar a los rastreadores de los motores de búsqueda a centrarse en su contenido más valioso.

El rastreo y la indexación eficientes de su sitio web son clave para aprovechar al máximo el tráfico orgánico que las páginas valiosas pueden llevar a su sitio. Para obtener más información sobre el proceso de indexación, ¡asegúrese de leer nuestra guía para indexar SEO a continuación!