Как бороться с парсерами контента веб-сайта

Опубликовано: 2022-02-21

Любой веб-мастер, который тратит время на то, чтобы контент был уникальным, хорошо написанным и полезным, чувствует боль, когда обнаруживает, что его контент скопирован и отображается на другом веб-сайте. Парсеры — это всего лишь часть ведения бизнеса в Интернете, и веб-мастер мало что может сделать, чтобы остановить это. Однако вы можете предпринять несколько разумных шагов, чтобы бороться с этим и сохранить уникальную ценность вашего сайта в поисковых системах.




Начните проходить наш тренинг по партнерскому маркетингу БЕСПЛАТНО здесь!



Соревнование

Есть несколько способов заблокировать парсеры, но некоторые из них также блокируют законные сканеры поисковых систем. Задача веб-мастеров состоит в том, чтобы сделать сайты неудобными для скрейпинга, но при этом оставаться удобными для поисковых систем. Это непростая задача, потому что то, что блокирует парсеры, обычно также блокирует и поисковые системы.

Например, один из способов полностью заблокировать скребки — преобразовать ваш контент в изображения. Хотя это отлично подходит для борьбы со скребками, это делает ваш сайт совершенно недружественным для SEO. Поисковые системы не смогут анализировать и читать ваш контент, поэтому ваш рейтинг, скорее всего, упадет. Поисковые системы по-прежнему основаны на тексте, поэтому они не могут правильно понимать и читать изображения.

Поскольку парсеры и боты работают одинаково, сложно создать метод блокировки парсеров без ущерба для SEO и ранжирования. Выбирая метод, делайте выбор с умом. Даже тестирование метода может иметь негативные последствия, если оно влияет на роботов поисковых систем. Не вносите каких-либо масштабных структурных изменений, если не уверены, что они не заблокируют законных ботов.

Вот три способа, с помощью которых вы можете бороться со скребками контента, сохраняя при этом удобство для поисковых систем вашего сайта.



Нажмите здесь, чтобы получить ВСЕ, что вам нужно для успеха в Интернете


Установите Canonical на своих страницах

Канонический дает алгоритмам Google сильное предложение при индексировании дублированного контента. Канонический в основном говорит: «Это дублированный контент. Вместо этого проиндексируйте этот URL». «Этот URL» — это страница на вашем сайте.

Когда парсер крадет ваш контент, он берет весь контент внутри тегов HTML, включая теги ссылок. В результате ваш канонический установлен на страницах парсера. Когда Google сканирует сайт парсера, он считывает каноническую и деиндексирует страницу парсера и сохраняет вашу собственную. Наличие канонической ссылки, которая указывает на текущую страницу, не влияет на ваш статус в индексе Google, поэтому вам не нужно беспокоиться о том, что это вызовет проблемы с вашими локальными страницами.

Этот метод обычно работает хорошо, но с ним есть несколько проблем. Во-первых, когда владелец парсера выясняет, что включен канонический код, он может его удалить. Во-вторых, канонический — это предложение для Google. Хотя алгоритм поисковой системы обычно принимает канонический формат и использует его для индексации, это не является гарантией. Если Google увидит сильные сигналы, указывающие на страницы парсера, он может сохранить их в индексе. Однако это редкость. К сильным сигналам относятся ссылки, большой объем трафика и популярность страницы.

Ниже приведен канонический код ссылки.

<link rel="canonical" "https://yoursite.com/yourpage.html" />

Обратите внимание, что вам нужен абсолютный URL-адрес, что означает, что вы включаете протокол (HTTP), доменное имя (yoursite.com) и имя страницы. Включите этот код на каждую из своих содержательных страниц.

Используйте абсолютные URL-адреса в своих ссылках

Существует два типа URL-адресов ссылок: абсолютные и относительные. Абсолют выглядит как ссылка в предыдущем разделе. Он включает в себя протокол, домен и имя страницы.

Относительная ссылка просто использует имя каталога и страницы. Вот пример:

    Абсолютный URL

<link rel="canonical" "https://yoursite.com/yourpage.html" />

    Относительный URL

<link rel="canonical" "/yourpage.html" />

Когда парсер крадет ваш контент, он очищает весь контент и структуру сайта. При использовании относительных URL-адресов будет работать ссылка на парсерный сайт. Когда вы используете абсолютные URL-адреса, эти ссылки указывают на ваш собственный домен. Парсер должен удалить из вашего домена все ссылки, иначе все они будут указывать на ваш сайт, что на самом деле может быть полезно для вашего графа ссылок. Если владелец парсера не умеет писать код, он не сможет использовать ваш контент, пока не отредактирует скрипты.



Нажмите здесь, чтобы получить ВСЕ, что вам нужно для успеха в Интернете


Создать приманку

Приманки — это приманки, которые компании используют для привлечения хакеров. Они имитируют реальный сервер или систему и позволяют хакеру находить уязвимости. Преимущество приманки заключается в регистрации событий по мере проникновения хакера в систему. Они также отвлекают хакеров от критических систем.

Вы можете создать аналогичную систему на своем веб-сервере. Все, что требуется, это создать один файл. Создайте пустой HTML-файл и загрузите его на свой веб-сервер. Например, назовите файл «honey.html» и поместите его на свой веб-сервер. Добавьте файл в файл robots.txt, чтобы роботы не могли его сканировать. Сканеры соблюдают директиву robots.txt, поэтому они не будут сканировать страницу, если она заблокирована в файле robots.txt.

Затем разместите скрытую ссылку на страницу honey.html на одной из активных страниц вашего сайта. Вы можете скрыть ссылку с помощью CSS-раздела «display: none». Следующий код является примером:

<div style="display: none;"><a href="honey.html">название ссылки</a></div>

Приведенный выше код виден сканерам и парсерам, но не обычным посетителям.

Что делает этот трюк, так это направляет трафик на один файл. Поскольку законные блоки учитывают robots.txt, а парсинги — нет, вы можете увидеть IP-адреса, сканирующие страницу. Вы должны регистрировать трафик на своем веб-сайте, поэтому вручную проверьте IP-адреса, которые сканируют honey.html. Легальные боты, такие как Google и Bing, не будут сканировать страницу, но скрейперы будут. Найдите IP-адреса парсера и заблокируйте их на своем веб-сервере или брандмауэре. Вы все равно должны проверить IP-адрес, прежде чем блокировать его, на случай, если возникнут какие-либо проблемы и законный трафик найдет страницу.

Парсеры никогда не должны превосходить ваш сайт в рейтинге

Вы не можете полностью заблокировать сайты от использования вашего контента. Ведь недобросовестный владелец сайта может вручную скопировать содержимое вашего сайта. Тем не менее, парсерный сайт никогда не должен превосходить ваш. Наиболее вероятной причиной того, что парсер опережает ваш собственный сайт, являются проблемы с вашим собственным SEO.

В Google есть сотни факторов, по которым ранжируются веб-сайты, поэтому сложно понять, какой из них может повлиять на ваш сайт. Вот разбивка того, что вы можете просмотреть.

  • Является ли ваш контент уникальным, полезным и написанным для пользователей?
  • Вы или консультант выполняли линкбилдинг?
  • Является ли ваш контент авторитетным?
  • Не индексируются ли страницы низкого качества?
  • Легко ли ваша навигация позволяет пользователям находить контент и продукты?

Это несколько вопросов, которые вы можете проверить, но вам может понадобиться профессионал для более тщательного аудита сайта.

Хорошей новостью является то, что парсеры обычно быстро умирают из-за штрафов Google и жалоб на хост сайта парсера. Если вы видите перед собой рейтинг скребков, выполните следующие действия, чтобы остановить их, и найдите время, чтобы проверить качество своего сайта.