Una guía detallada sobre el archivo Robots.txt

Publicado: 2020-08-10

El archivo robots.txt es un archivo muy poderoso que se puede agregar a su sitio web para ayudar a controlar qué áreas de los motores de búsqueda de su sitio deben rastrear y qué áreas deben ignorarse. Es importante revisar su archivo robots.txt periódicamente para asegurarse de que esté actualizado y, si es posible, utilice una herramienta de supervisión para recibir alertas cuando se produzcan cambios.

En Semetrical, como parte de nuestra oferta de servicios técnicos de SEO, auditaremos el archivo robots.txt de un cliente cuando realicemos una auditoría técnica del sitio web de un cliente para verificar que las rutas que se están bloqueando deberían estarlo. Además, si el equipo de SEO encuentra problemas como parte del proceso de auditoría técnica de SEO, como la duplicación, se pueden escribir y agregar nuevas reglas de robots.txt al archivo.

Como robots.txt es un archivo importante, hemos elaborado una guía que cubre lo que es en última instancia, por qué alguien puede usarlo y los errores comunes que pueden ocurrir al escribir reglas.

¿Qué es un archivo txt de robots?

El archivo robots.txt es el primer puerto de escala para un rastreador cuando visita su sitio web. Es un archivo de texto que enumera instrucciones para diferentes agentes de usuario que esencialmente les dice a los rastreadores web qué partes de un sitio deben rastrearse y cuáles deben ignorarse. Las principales instrucciones utilizadas en un archivo robots.txt se especifican mediante una regla de "permitir" o "no permitir".

Históricamente, una regla "noindex" también funcionaría, sin embargo, en 2019, Google dejó de admitir la directiva noindex porque era una regla no publicada.

Si el archivo no se usa correctamente, puede ser perjudicial para su sitio web y podría causar una gran caída en el tráfico y las clasificaciones. Por ejemplo, pueden ocurrir errores cuando un sitio web completo se bloquea de los motores de búsqueda o una sección de un sitio se bloquea por error. Cuando esto suceda, las clasificaciones relacionadas con esa parte del sitio disminuirán gradualmente y, a su vez, el tráfico disminuirá.

¿Realmente necesita un archivo robots.txt?

No, no es obligatorio tener un robot.txt en su sitio web, especialmente para sitios web pequeños con URL mínimas, pero es muy recomendable para sitios web medianos a grandes. En sitios grandes, hace que sea más fácil controlar qué partes de su sitio son accesibles y qué secciones deben bloquearse para los rastreadores. Si el archivo no existe, su sitio web generalmente será rastreado e indexado normalmente.

¿Para qué se utiliza principalmente el archivo txt de robots?

El archivo robots.txt tiene muchos casos de uso y en Semetrical lo hemos usado para los siguientes escenarios:

Bloquear los resultados de la búsqueda interna, ya que estas páginas no suelen ser valiosas para un rastreador y pueden causar una gran cantidad de duplicaciones en un sitio web.
Bloquear partes de una navegación de facetas si ciertas facetas no son valiosas desde una perspectiva de SEO pero aún son necesarias para UX cuando un usuario está en su sitio web.
Bloquear diferentes niveles de una faceta de navegación, donde un nivel de faceta puede ser útil para los motores de búsqueda, pero cuando se combinan dos filtros de facetas diferentes, pueden volverse irrelevantes para que un motor de búsqueda los rastree e indexe.
Parámetros de bloqueo que causan duplicación o desperdician el presupuesto de rastreo. Esto es un poco controvertido ya que otros pueden decirle que no bloquee los parámetros en robots.txt, pero esto ha funcionado en varios de nuestros sitios web de clientes donde se necesitan parámetros pero los rastreadores no necesitan rastrearlos. Se recomienda encarecidamente verificar que cualquier parámetro que esté bloqueando no tenga enlaces valiosos o esté clasificado para palabras clave valiosas que generen tráfico.
Bloqueo de secciones privadas de un sitio web, como páginas de pago y secciones de inicio de sesión.
Incluir las ubicaciones de su mapa del sitio XML para facilitar que los rastreadores accedan a todas las URL de su sitio web.
Para permitir que solo bots específicos accedan y rastreen su sitio.
Bloqueo de contenido generado por el usuario que no se puede moderar.

¿Dónde colocar un texto de robots y cómo agregarlo a su sitio?

Se debe colocar un archivo robots.txt en la raíz de su sitio web, por ejemplo, en el sitio de Semetrical se encuentra en www.semetrical.com/robots.txt y debe llamarse robots.txt. Un sitio web solo puede tener un archivo robots.txt y debe estar en un archivo de texto codificado en UTF-8 que incluya ASCII.

Si tiene subdominios como blog.example.com, entonces robots.txt puede ubicarse en la raíz del subdominio, como blog.example.com/robots.txt.

¿Qué aspecto tiene un archivo robots.txt?

Un archivo robots.txt típico estaría formado por diferentes componentes y elementos que incluyen:

Agente de usuario
Rechazar
Permitir
Retraso de rastreo
mapa del sitio
Comentarios (Ocasionalmente puedes ver esto)

A continuación se muestra un ejemplo de Semetrcals robots.txt que incluye un agente de usuario, reglas de rechazo y un mapa del sitio.

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Disallow: /trackback/ Disallow: /index.php/ Disallow: /xmlrpc.php Disallow: /blog-documentation/ Disallow: /test/ Disallow: /hpcontent/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

Agente de usuario

El agente de usuario define el inicio de un grupo de directivas. A menudo se representa con un comodín (*) que indica que las instrucciones a continuación son para todos los bots que visitan el sitio web. Un ejemplo de esto sería:

Agente de usuario: *

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

Habrá ocasiones en las que desee bloquear ciertos bots o solo permitir que ciertos bots accedan a ciertas páginas. Para hacer esto, debe especificar el nombre del bot como agente de usuario. Un ejemplo de esto sería:

 User-agent: AdsBot-Google Disallow: /checkout/reserve Disallow: /resale/checkout/order Disallow: /checkout/reserve_search

Los agentes de usuario comunes a tener en cuenta incluyen:

También existe la posibilidad de bloquear software específico para que no rastree su sitio web o retrasar la cantidad de URL que pueden rastrear por segundo, ya que cada herramienta tendrá sus propios agentes de usuario que rastrearán su sitio. Por ejemplo, si desea bloquear SEMRush o Ahrefs para que no rastreen su sitio web, se agregará lo siguiente a su archivo:

 User-agent: SemrushBot Disallow: * User-agent: AhrefsBot Disallow: *

Si quisiera retrasar la cantidad de URL rastreadas, se agregarían las siguientes reglas a su archivo:

 User-agent: AhrefsBot Crawl-Delay: [value] User-agent: SemrushBot Crawl-Delay: [value]

Directiva de rechazo

La directiva de rechazo es una regla que un usuario puede poner en el archivo robots.txt que le indicará a un motor de búsqueda que no rastree una ruta específica o un conjunto de URL según la regla creada. Puede haber una o varias líneas de reglas de rechazo en el archivo, ya que es posible que desee bloquear varias secciones de un sitio web.

Si una directiva de rechazo está vacía y no especifica nada, entonces los bots pueden rastrear todo el sitio web, por lo que para bloquear ciertas rutas o todo su sitio web, debe especificar un prefijo de URL o una barra inclinada "/". Por ejemplo, en el siguiente ejemplo, estamos bloqueando cualquier URL que se salga de la ruta de /cgi-bin/ o /wp-admin/.

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/

Si desea bloquear todo su sitio web de bots como Google, deberá agregar una directiva de rechazo seguida de una barra inclinada. Por lo general, es posible que solo necesite hacer esto en un entorno de ensayo cuando no desea que se encuentre o indexe el sitio web de ensayo. Un ejemplo se vería así:

 User-agent: * Disallow: /

Permitir directiva

La mayoría de los motores de búsqueda cumplirán con la directiva de permiso donde esencialmente contrarrestará una directiva de rechazo. Por ejemplo, si tuviera que bloquear /wp-admin/, normalmente bloquearía todas las URL que se ejecutan fuera de esa ruta; sin embargo, si hay una regla de permiso para /wp-admin/admin-ajax.php, los bots rastrearán / admin-ajax.php pero bloquee cualquier otra ruta que se ejecute fuera de /wp-admin/. Vea el ejemplo a continuación:

 User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php

Retraso de rastreo

La directiva de retraso del rastreo ayuda a reducir la velocidad con la que un bot rastreará su sitio web. No todos los motores de búsqueda seguirán la directiva de demora de rastreo, ya que es una regla no oficial.

– Google no seguirá esta directiva

– Baidu no seguirá esta directiva

– Bing y Yahoo admiten la directiva de retraso de rastreo donde la regla le indica al bot que espere "n" segundos después de una acción de rastreo.

– Yandex también es compatible con la directiva de retraso del rastreo, pero interpreta la regla de forma ligeramente diferente, ya que solo accederá a su sitio una vez cada “n” segundos”.

Un ejemplo de una directiva de retraso de rastreo a continuación:

 User-agent: BingBot Disallow: /wp-admin/ Crawl-delay: 5

Directiva de mapa del sitio

La directiva del mapa del sitio puede decirle a los motores de búsqueda dónde encontrar su mapa del sitio XML y facilita que los diferentes motores de búsqueda encuentren las URL en su sitio web. Los principales motores de búsqueda que seguirán esta directiva incluyen Google, Bing, Yandex y Yahoo.

Se recomienda colocar la directiva del mapa del sitio en la parte inferior de su archivo robots.txt. A continuación se muestra un ejemplo de esto:

 User-agent: * Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /comments/feed/ Sitemap: https://devsemetrical.wpengine.com/sitemap.xml

Comentarios

Un archivo robots.txt puede incluir comentarios, pero la presencia de comentarios es solo para humanos y no para bots, ya que se ignorará cualquier cosa después de un hashtag. Los comentarios pueden ser útiles por múltiples razones que incluyen:

– Proporciona una razón por la cual ciertas reglas están presentes

– Referencias que agregaron las reglas

– Hace referencia a qué partes de un sitio son las reglas

– Explica lo que están haciendo las reglas.

– A continuación se muestran ejemplos de comentarios en diferentes archivos robots.txt:

 #Student Disallow: /student/*-bed-flats-* Disallow: /student/*-bed-houses* Disallow: /comments/feed/ #Added by Semetrical Disallow: /jobs*/full-time/* Disallow: /jobs*/permanent/* #International Disallow: */company/fr/* Disallow: */company/de/*

¿Es importante el orden de las reglas?

El orden de las reglas no es importante; sin embargo, cuando se aplican varias reglas de permiso y rechazo a una URL, la regla de ruta de coincidencia más larga es la que se aplica y tiene prioridad sobre la regla más corta menos específica. Si ambas rutas tienen la misma longitud, se utilizará la regla menos restrictiva. Si necesita permitir o rechazar una ruta de URL específica, puede hacer que la regla sea más larga utilizando "*" para hacer que la cadena sea más larga. Por ejemplo, no permitir: ********/hacer-más largo

En el propio sitio web de Google, han enumerado un conjunto de situaciones de muestra que muestra la regla de prioridad que tiene prioridad. La siguiente tabla fue tomada de Google.

¿Cómo verificar su archivo robots.txt?

Siempre es importante verificar y validar su archivo robots.txt antes de publicarlo, ya que tener reglas incorrectas puede tener un gran impacto en su sitio web.

La mejor manera de probar es ir a la herramienta de prueba de robots.txt en Search Console y probar diferentes URL que deben bloquearse con las reglas vigentes. Esta también es una excelente manera de probar cualquier regla nueva que desee agregar al archivo.

Ejemplos de uso de expresiones regulares en robots.txt

Al crear reglas en su archivo robots.txt, puede usar la coincidencia de patrones para bloquear un rango de URL en una regla de rechazo. Las expresiones regulares se pueden usar para hacer coincidencias de patrones y los dos caracteres principales que cumplen tanto Google como Bing incluyen:

Signo de dólar ($) que coincide con el final de una URL
Asterisco (*) que es una regla comodín que representa cualquier secuencia de caracteres.

Ejemplos de coincidencia de patrones en Semetrical:

 Disallow: */searchjobs/*

Esto bloqueará cualquier URL que incluya la ruta de /searchjobs/ como: www.example.com/searchjobs/construction. Esto era necesario para un cliente, ya que la sección de búsqueda de su sitio debía bloquearse para que los motores de búsqueda no rastrearan e indexaran esa sección del sitio.

 Disallow: /jobs*/full-time/*

Esto bloqueará las URL que incluyan una ruta después de /jobs/ seguida de /full-time/ como

www.example.com/jobs/admin-secretarial-and-pa/full-time/

. En este escenario, necesitamos tiempo completo como filtro para UX, pero para los motores de búsqueda no es necesario indexar una página para atender a "título del trabajo" + "tiempo completo".

 Disallow: /jobs*/*-000-*-999/*

Esto bloqueará las URL que incluyan filtros de salario como

www.example.com/jobs/city-of-bristol/-50-000-59-999/

. En este escenario, necesitamos filtros de salario, pero no había necesidad de que los motores de búsqueda rastrearan las páginas de salario e indexaran.

 Disallow: /jobs/*/*/flexible-hours/

Esto bloqueará las URL que incluyan horarios flexibles e incluyan dos rutas de facetas en el medio. En este escenario, descubrimos a través de la investigación de palabras clave que los usuarios pueden buscar ubicación + horario flexible u trabajo + horario flexible, pero los usuarios no buscarían "título del trabajo" + "ubicación" + "horario flexible". Una URL de ejemplo parece

www.example.com/jobs/admin-secretarial-and-pa/united-kingdom/flexible-hours/

 Disallow: */company/*/*/*/people$

Esto bloqueará una URL que incluya tres rutas entre la empresa y las personas, así como la URL que termine en personas. un ejemplo seria

www.example.com/company/gb/04905417/company-check-ltd/people

 Disallow: *?CostLowerAsNumber=*

Esta regla bloquearía un filtro de parámetros que ordenaba precios.

 Disallow: *?Radius=* Disallow: *?radius=*

Estas dos reglas impedían que los bots rastrearan una URL de parámetro que cambiaba el radio de búsqueda de un usuario. Se agregó una regla de mayúsculas y minúsculas ya que el sitio incluía ambas versiones.

Aspectos a tener en cuenta con el archivo robots.txt

El archivo robots.txt distingue entre mayúsculas y minúsculas, por lo que debe usar las mayúsculas y minúsculas correctas en sus reglas. Por ejemplo, /hola/ se tratará de manera diferente a /Hola/.
Para que los motores de búsqueda como Google vuelvan a almacenar en caché su archivo robots.txt más rápido para encontrar nuevas reglas, puede inspeccionar la URL de robots.txt en Search Console y solicitar la indexación.
Si su sitio web se basa en un archivo robots.txt con una serie de reglas y su URL de robots.txt muestra un código de estado 4xx durante un período de tiempo prolongado, las reglas se ignorarán y las páginas bloqueadas se volverán indexables. Es importante asegurarse de que siempre esté sirviendo un código de estado 200.
Si su sitio web está inactivo, asegúrese de que robots.txt devuelva un código de estado 5xx, ya que los motores de búsqueda entenderán que el sitio está inactivo por mantenimiento y volverán a rastrear el sitio web nuevamente en una fecha posterior.
Cuando las URL ya están indexadas y luego se agrega un rechazo a su sitio web para eliminar esas URL del índice, puede tomar algún tiempo para que esas URL se eliminen y se eliminen. Además, las URL aún pueden permanecer en el índice por un tiempo, pero la meta descripción mostrará un mensaje como "Una descripción para este resultado no está disponible debido al archivo robots.txt de este sitio; obtenga más información".
Una regla de rechazo de robots.txt no siempre garantiza que una página no aparecerá en los resultados de búsqueda, ya que Google aún puede decidir, en función de factores externos como los enlaces entrantes, que es relevante y debe indexarse.
Si tiene una regla de rechazo y también coloca una etiqueta "sin índice" dentro del código fuente de una página, el "sin índice" se ignorará ya que los motores de búsqueda no pueden acceder a la página para descubrir la etiqueta "sin índice".
Una regla de rechazo en páginas indexadas, especialmente aquellas con enlaces entrantes, significa que perderá la equidad de enlace de esos backlinks que de otro modo se transmitirían para beneficiar a otras páginas. Por eso es importante verificar si las páginas tienen backlinks antes de agregar una regla de rechazo.
Si falta la barra inclinada inicial en la ruta al escribir una regla de permiso o rechazo, se ignorará la regla. Por ejemplo, “No permitir: buscartrabajos.

Si desea hablar con uno de nuestros especialistas técnicos en SEO de Semetrical, visite nuestra página de servicios técnicos de SEO para obtener más información.