Cómo luchar contra los raspadores de contenido del sitio web

Publicado: 2022-02-21

Cualquier webmaster que dedique tiempo a asegurarse de que el contenido sea único, esté bien escrito y sea útil siente el dolor cuando descubre que su contenido se raspa y se muestra en otro sitio web. Los scrapers son solo una parte de hacer negocios en la web, y no hay mucho que un webmaster pueda hacer para detenerlos. Sin embargo, puede tomar algunas medidas inteligentes para combatirlo y preservar el valor único de su sitio en los motores de búsqueda.

¡Comienza a tomar nuestra capacitación de marketing afiliado GRATIS aquí!

El reto

Hay varias formas de bloquear los raspadores, pero algunos de ellos también bloquean los rastreadores de motores de búsqueda legítimos. El desafío para los webmasters es hacer que los sitios no sean amigables con el raspador pero que sigan siendo amigables con los motores de búsqueda. Esta no es una tarea fácil, porque lo que bloquea los raspadores generalmente también bloquea los motores de búsqueda.

Por ejemplo, una forma de bloquear completamente los raspadores es transformar su contenido en imágenes. Si bien esto es excelente para luchar contra los raspadores, hace que su sitio sea completamente hostil para SEO. Los motores de búsqueda no podrán analizar ni leer su contenido, por lo que es probable que su rango baje. Los motores de búsqueda aún se basan en texto, por lo que no pueden comprender ni leer correctamente las imágenes.

Debido a que los raspadores y los bots funcionan de manera similar, es difícil crear un método para bloquear los raspadores sin dañar su SEO y clasificación. Cuando elija un método, elija sabiamente. Incluso probar un método puede tener efectos negativos si afecta a los bots de los motores de búsqueda. No realice cambios estructurales masivos a menos que sepa que no bloquearán bots legítimos.

Aquí hay tres formas en que puede luchar contra los raspadores de contenido, pero mantener su motor de búsqueda amigable con el rastreador.

Haga clic aquí para obtener TODO lo que necesita para tener éxito en línea

Establezca un Canonical en sus páginas

Un canónico le da a los algoritmos de Google una fuerte sugerencia al indexar contenido duplicado. Un canónico básicamente dice “Este es contenido duplicado. En su lugar, indexe esta URL”. “Esta URL” es una página en su sitio.

Cuando un raspador roba su contenido, toma todo el contenido dentro de las etiquetas HTML, incluidas las etiquetas de enlace. El resultado es que su canonical se establece en las páginas del raspador. Cuando Google rastrea el sitio del raspador, lee el canónico y desindexa la página del raspador y conserva la tuya. Tener un enlace canónico que apunte a la página actual no afecta su estado de índice de Google, por lo que no debe preocuparse de que cause problemas con sus páginas locales.

Esta técnica generalmente funciona bien, pero tiene algunos problemas. En primer lugar, cuando el propietario del raspador se da cuenta de que se incluye una canónica, puede eliminar la canónica. En segundo lugar, un canónico es una sugerencia para Google. Si bien el algoritmo del motor de búsqueda generalmente acepta el canónico y lo usa para la indexación, no es una garantía. Si Google ve señales fuertes que apuntan a las páginas scraper, podría mantenerlas indexadas. Sin embargo, esto es raro. Las señales fuertes incluyen enlaces, tráfico de alto volumen y popularidad de la página.

El siguiente es un código de enlace canónico.

Tenga en cuenta que necesita la URL absoluta, lo que significa que incluye el protocolo (HTTP), el nombre de dominio (yoursite.com) y el nombre de la página. Incluya este código en cada una de sus páginas de contenido.

Use URL absolutas en sus enlaces

Hay dos tipos de URL de enlace: absolutas y relativas. Un absoluto se parece al enlace de la sección anterior. Incluye el protocolo, el dominio y el nombre de la página.

Un enlace relativo solo usa el directorio y el nombre de la página. Aquí hay un ejemplo:

URL absoluta

URL relativa

Cuando un raspador roba su contenido, raspa todo el contenido y la estructura del sitio. Cuando usa URL relativas, el enlace del sitio de extracción funcionará. Cuando utiliza URL absolutas, estos enlaces apuntan a su propio dominio. El raspador debe eliminar su dominio de todos los enlaces o todos apuntarán a su sitio, lo que en realidad puede ser beneficioso para su gráfico de enlaces. A menos que el propietario del raspador pueda escribir código, no podrá usar su contenido a menos que edite los scripts.

Haga clic aquí para obtener TODO lo que necesita para tener éxito en línea

Crear un Honeypot

Los honeypots son señuelos que las empresas utilizan para atraer a los piratas informáticos. Imitan un servidor o sistema real y permiten que el hacker encuentre vulnerabilidades. La ventaja de un honeypot es registrar eventos a medida que el hacker penetra en el sistema. También atraen a los piratas informáticos lejos de los sistemas críticos.

Puede crear un sistema similar en su servidor web. Todo lo que se necesita es crear un archivo. Cree un archivo HTML en blanco y cárguelo en su servidor web. Por ejemplo, nombre el archivo "miel.html" y colóquelo en su servidor web. Agregue el archivo a su archivo robots.txt para evitar que los robots lo rastreen. Los rastreadores respetan la directiva robots.txt, por lo que no rastrearán la página si la tiene bloqueada en el archivo robots.txt.

A continuación, coloque un enlace oculto a la página honey.html en una de las páginas activas de su sitio. Puede ocultar el enlace con un div CSS "display: none". El siguiente código es un ejemplo:

<div style=”display: none;”><a href=”honey.html”>nombre del enlace</a></div>

El código anterior es visible para los rastreadores y raspadores, pero no para los visitantes normales.

Lo que hace este truco es dirigir el tráfico a un archivo. Dado que los bloques legítimos respetan el archivo robots.txt pero las raspaduras no, puede ver las direcciones IP rastreando la página. Debería registrar el tráfico en su sitio web, así que revise manualmente las direcciones IP que rastrean honey.html. Los bots legítimos como Google y Bing no rastrearán la página, pero los raspadores sí. Encuentre IP de scraper y bloquéelas en su servidor web o firewall. Aún debe verificar la IP antes de bloquearla en caso de que ocurra algún problema y el tráfico legítimo encuentre la página.

Los raspadores nunca deben superar a su sitio web

No puede bloquear completamente los sitios para que no tomen su contenido. Después de todo, el propietario de un sitio sin escrúpulos puede copiar manualmente el contenido de su sitio. Sin embargo, un sitio scraper nunca debe superar al tuyo. La causa más probable de que un raspador supere a su propio sitio son los problemas con su propio SEO.

Google tiene cientos de factores que clasifican los sitios web, por lo que es difícil saber qué factor podría estar afectando su sitio. Aquí hay un desglose de lo que puede revisar.

¿Tu contenido es único, útil y está escrito para los usuarios?
¿Has realizado tú o un consultor algún link building?
¿Es su contenido autorizado?
¿Las páginas de baja calidad están configuradas como noindex?
¿Tu navegación es fácil para que los usuarios encuentren contenidos y productos?

Estos son algunos problemas que puede revisar, pero es posible que necesite un profesional para auditar el sitio más a fondo.

La buena noticia es que los raspadores generalmente mueren rápidamente debido a las sanciones de Google y las quejas al host del sitio raspador. Si ve una clasificación de raspador delante de usted, siga estos pasos para detenerlos y tómese el tiempo para revisar la calidad de su sitio.