Полное руководство по тегу Noindex для SEO

Опубликовано: 2022-02-14

Предотвращение появления определенных страниц в результатах поиска является неотъемлемой частью вашей стратегии индексации.

Одним из важнейших методов управления индексацией вашего сайта является директива noindex в метатегах robots или x-robots-tags.

Тег noindex можно использовать, чтобы сообщить ботам, что страницу не следует индексировать, если вы все еще хотите, чтобы они сканировали данную страницу и переходили по ссылкам на ней.

Неправильная реализация директивы noindex может привести к тому, что ваш контент будет удален из индекса Google.

Убедитесь, что этого не происходит — следуйте моему руководству , чтобы узнать, когда использовать тег noindex, как его реализовать и какие рекомендации использовать.

Содержимое скрыть

1 Что такое тег noindex?

1.1 Noindex против nofollow

2 Когда следует использовать тег noindex?

3 Как реализовать тег noindex

3.1 Вставьте тег noindex в HTML-код страницы

3.1.1 Плюсы и минусы метатегов robots

3.2 Добавьте тег noindex в заголовки HTTP

3.2.1 Сервер Apache

3.2.2 Сервер Nginx

3.2.3 Плюсы и минусы использования заголовков HTTP

3.3 Как вы можете проверить свою реализацию тега noindex?

4 Дополнительная информация об использовании тега noindex

5 Сравнение тегов noindex, файлов robots.txt и канонических тегов

5.1 Файлы robots.txt

5.2 Канонические теги

6 Подведение итогов

Что такое тег noindex?

Тег noindex — это тег HTML, используемый для управления тем, как боты обрабатывают данную страницу или файл на вашем сайте, и не позволяет им индексировать эту страницу или файл.

Вы можете указать поисковым системам не индексировать страницу , добавив директиву noindex в метатег robots — просто добавьте следующий код в раздел <head> HTML:

 <meta name="robots" content="noindex">

Кроме того, тег noindex можно добавить в качестве тега x-robots в HTTP-заголовок :

 тег x-роботов: noindex

Когда бот поисковой системы, такой как Googlebot, сканирует страницу с тегом noindex, он не будет ее индексировать. Если страница ранее была проиндексирована, а тег был добавлен позже, Google удалит ее из результатов поиска, даже если на нее ссылаются другие сайты.

Как правило, сканеры поисковых систем не обязаны следовать мета-директивам , поскольку они служат скорее предложениями, чем правилами, которые они должны соблюдать. Некоторые сканеры поисковых систем могут по-разному интерпретировать мета-значения роботов.

Однако большинство сканеров поисковых систем, таких как Googlebot, подчиняются директиве noindex.

Noindex против nofollow

Существуют и другие мета-директивы для роботов , которые поддерживает Google. Самые популярные из них включают nofollow и follow. Однако тег Follow является настройкой по умолчанию, если метатеги robots не добавлены, поэтому Google считает его ненужным .

Тег nofollow не позволяет поисковым системам сканировать ссылки на странице. В результате сигналы ранжирования этой страницы не будут передаваться страницам, на которые она ссылается.

Директиву noindex можно использовать отдельно, но ее также можно комбинировать с другими директивами. Например, вы можете добавить тег noindex и nofollow, если вы не хотите, чтобы роботы поисковых систем индексировали страницу и переходили по ссылкам на ней.

Если вы внедрили тег noindex, но ваша страница по-прежнему появляется в результатах поиска, вероятно, Google просто не сканировал страницу с момента добавления тега. Чтобы запросить у Google повторное сканирование страницы, вы можете использовать инструмент проверки URL.

Когда следует использовать тег noindex?

Вы должны использовать тег noindex, чтобы предотвратить индексацию страниц Google.

Сделать менее важные страницы неиндексируемыми крайне важно, потому что у Google недостаточно ресурсов для сканирования и индексации каждой страницы, которую он находит в Интернете. В то же время вам необходимо определить свои ценные страницы, которые следует проиндексировать, и расставить приоритеты в их оптимизации.

Давайте посмотрим, на каких типах страниц вы должны использовать тег noindex, чтобы сделать их неиндексируемыми.

Поместите тег noindex на:

Страницы товаров, которых нет в наличии и которые больше не будут доступны.
Страницы с дублирующимся контентом, часто преобладающим на веб-сайтах электронной коммерции. Также рекомендуется использовать канонические теги , чтобы указать поисковым системам на основные версии ваших страниц и предотвратить дублирование контента.
Страницы, которые не должны быть доступны в результатах поиска, например, промежуточные среды или защищенные паролем страницы.
Страницы, ценные для поисковых систем, но не для пользователей, например страницы, содержащие ссылки, которые помогают ботам находить другие страницы.

Сделать страницы неиндексируемыми следует в рамках хорошо зарекомендовавшей себя стратегии индексации.

Вы никогда не должны включать noindex на ценные страницы, такие как:

Самые популярные страницы товаров,
Статьи в блогах (если они не устарели),
Обо мне и контакты,
Страницы с описанием предлагаемых вами услуг.

Как правило, никогда не размещайте noindex на страницах, которые, как вы ожидаете, будут генерировать значительный органический трафик.

Как реализовать тег noindex

Тег noindex можно разместить в HTML-коде сайта или в заголовках ответов HTTP.

Некоторые плагины CMS, такие как Yoast , позволяют автоматически не индексировать публикуемые вами страницы.

Давайте шаг за шагом рассмотрим два основных метода реализации и проанализируем их плюсы и минусы.

Вставьте тег noindex в HTML-код страницы.

Тег noindex может быть реализован как метатег robots в <head> HTML страницы.

Метатеги robots — это коды, используемые для управления сканированием и индексированием веб-сайта. Пользователи их не видят, но боты находят их при сканировании страницы.

Вот как реализовать код:

 <!ДОКТИП HTML>
<html>
<голова>
<meta name="роботы" content="noindex" >
</голова>
<тело>
</тело>
</html>

Поясним, как устроен метатег robots.

Внутри метатега есть пары атрибутов и значений:

 <мета-атрибут="значение">

Метатег robots имеет два атрибута:

name — указывает имя бота поисковой системы,
content — содержит директивы для ботов.

Оба атрибута требуют разных значений в зависимости от того, что вы хотите, чтобы боты делали. Кроме того, атрибуты name и content не чувствительны к регистру.

Атрибут name обычно принимает значение «роботы», указывая на то, что директива нацелена на всех ботов.

Вместо этого также можно использовать имя определенного бота, например, «googlebot», хотя вы столкнетесь с этим гораздо реже. Если вы хотите обращаться к разным ботам, вам нужно будет создать отдельные метатеги для каждого из них.

Имейте в виду, что у поисковых систем есть разные сканеры для разных целей — ознакомьтесь со списком сканеров Google.

Между тем, атрибут содержимого содержит директиву, которой должны следовать боты. В нашем случае это «noindex». Вы можете поместить туда более одного значения и разделить атрибуты запятыми.

Плюсы и минусы метатегов robots

Метод HTML легче реализовать и изменить, чем метод заголовка HTTP. Это также не требует, чтобы у вас был доступ к вашему серверу.

Однако реализация тега noindex в вашем HTML может занять много времени — вам нужно будет добавить его вручную на каждую страницу, которую вы хотите запретить индексировать.

Добавьте тег noindex в заголовки HTTP.

Другое решение — указать директиву noindex в теге x-robots.

Это элемент ответа заголовка HTTP . Заголовки HTTP используются для связи между сервером и клиентом (браузером или ботом поисковой системы).

Вы можете настроить его на своем веб-сервере HTTP. Код будет выглядеть немного по-разному в зависимости от того, какой сервер вы используете — например, Apache, Nginx или другие.

Вот пример того, как может выглядеть HTTP-ответ с тегом x-robots:

 HTTP/1.1 200 ОК
(…)
тег x-роботов: noindex
(…)

сервер Apache

Если у вас есть сервер на базе Apache и вы хотите не индексировать все файлы, оканчивающиеся на «.pdf», вам следует добавить директиву в файл .htaccess .

Вот пример кода:

 <Файлы ~ "\.pdf$">
В заголовке установлен x-robots-tag "noindex"
</файлы>

Nginx-сервер

Если у вас сервер на базе Nginx , реализуйте директиву в файле .conf :

 расположение ~* \.pdf$ {
add_header x-robots-tag "noindex";
}

Плюсы и минусы использования заголовков HTTP

Одним из существенных преимуществ использования noindex в заголовках HTTP является то, что вы можете использовать его в веб-документах, которые не являются HTML-страницами , например в файлах PDF, видео или изображениях. Кроме того, этот метод позволяет настроить таргетинг на определенную часть страницы.

Кроме того, x-robots-tag поддерживает использование регулярных выражений ( RegEx ). Другими словами, вы можете настроить таргетинг на страницы, которые не должны индексироваться, указав, что у них общего. Например, вы можете настроить таргетинг на страницы с URL-адресами, которые содержат определенные параметры или символы.

С другой стороны, вам нужен доступ к вашему серверу для реализации тега x-robots.

Добавление тега также требует технических навыков и является более сложным, чем добавление метатегов robots в HTML-код веб-сайта.

Как вы можете проверить свою реализацию тега noindex?

Если вы хотите проверить, реализованы ли noindex или другие метадирективы robots, вы можете сделать это в зависимости от того, как они были добавлены на страницу.

Таким образом, если тег noindex был добавлен в HTML-код страницы, вы можете проверить ее исходный код, а для заголовков HTTP вы можете использовать параметр Inspect в Chrome . Эти инструменты покажут вам, какие директивы были распознаны на данной странице.

Другие варианты включают ввод URL-адреса в инструмент проверки URL -адресов Google Search Console или использование расширения Link Redirect Trace .

Дополнительная информация об использовании тега noindex

Вот некоторые дополнительные рекомендации по использованию тега noindex и подробности о его характеристиках:

Всякий раз, когда вы не включаете noindex в свой код, по умолчанию боты могут индексировать вашу страницу .
Следите за любыми ошибками в коде, такими как запятые в нужных местах — боты не поймут ваши команды, если синтаксис неправильный.
Добавьте теги в HTML-код или заголовки ответа HTTP, но не в оба вместе. Это может иметь преимущественно негативные последствия, если директивы в соответствующих местах противоречат друг другу. В этом случае Googlebot выберет директиву, ограничивающую индексацию.
Вы можете использовать директиву noimageindex, которая будет работать аналогично noindex, но только предотвратит индексацию изображений на данной странице.
Через некоторое время боты начинают рассматривать noindex как nofollow. Многие люди отключают индексирование страниц с помощью noindex, но комбинируют его с директивой follow, чтобы роботы по-прежнему сканировали ссылки на странице. Но Google объяснил , что директива noindex, follow в конечном итоге будет рассматриваться как noindex, nofollow, потому что в какой-то момент они перестают сканировать ссылки на неиндексированных страницах. В результате страницы назначения ссылок могут не индексироваться и получать сигналы пониженного ранжирования, что может негативно сказаться на их ранжировании.
Не используйте noindex в файлах robots.txt. Хотя это и некоторые другие правила официально не поддерживались, поисковые роботы следовали директивам noindex в файлах robots.txt. Однако в сентябре 2019 года Google объявил об удалении кода, который обрабатывал неподдерживаемые и неопубликованные правила в файлах robots.txt, такие как noindex, в сентябре 2019 года.

Сравнение тегов noindex, файлов robots.txt и канонических тегов

Теги noindex, файлы robots.txt и канонические теги связаны между собой — их можно использовать для управления сканированием и/или индексацией страниц .

Однако у них есть некоторые отличительные характеристики, которые делают их подходящими в различных ситуациях.

Мы установили, что теги noindex определяют, следует ли индексировать определенные страницы веб-сайта, и они работают на уровне страниц.

Давайте посмотрим, как это соотносится с файлами robots.txt и каноническими тегами.

Файлы robots.txt

Файлы robots.txt можно использовать для управления тем, как роботы поисковых систем сканируют части вашего веб-сайта на уровне каталогов.

В частности, файлы robots.txt содержат директивы для ботов поисковых систем, в которых основное внимание уделяется либо «запрещению», либо «разрешению» их поведения. Если боты будут следовать директиве, они не будут сканировать запрещенные страницы, и страницы не будут проиндексированы.

Директивы robots.txt широко используются для экономии краулингового бюджета веб-сайта.

Будьте осторожны при реализации тегов noindex и настройке правил в файлах robots.txt. Чтобы директива noindex была эффективной, данная страница должна быть доступна для сканирования, а это означает, что она не может быть заблокирована файлом robots.txt.

Если сканер не может получить доступ к странице, он не увидит тег noindex и не будет его учитывать. Затем страницу можно просканировать и она появится в результатах поиска, например, если на нее ссылаются другие страницы.

Чтобы не индексировать страницу, разрешите ее сканирование в файле robots.txt и используйте метатег noindex, чтобы заблокировать ее индексацию — тогда Googlebot будет следовать директиве noindex.

Канонические теги

Канонические теги — это HTML-элементы, сообщающие поисковым системам, какая страница из нескольких похожих является основной и должна быть проиндексирована. Они размещаются на второстепенных страницах и указывают канонический URL — в результате эти второстепенные страницы не должны включаться в индекс.

Канонические теги могут ограничивать индексирование неканонических страниц, но Google не всегда будет учитывать эти теги . Например, если Google находит больше ссылок на другую страницу, он может рассматривать ее как более важную, чем указанный канонический URL-адрес, и считать ее основной версией.

Кроме того, канонические теги могут быть обнаружены ботами только во время сканирования. В отличие от файлов robots.txt, их нельзя использовать для остановки сканирования страницы.

Существенное различие между каноническими тегами и тегами noindex заключается в том, что канонические страницы объединяют сигналы ранжирования под одним URL-адресом. В то же время непроиндексированные страницы не будут передавать сигналы ранжирования , что очень важно для внутренних ссылок — они не будут передавать сигналы ранжирования URL-адресам, на которые ссылаются.

Подведение итогов

Предотвращение индексации некачественных страниц — один из лучших методов SEO для оптимизации вашей стратегии индексации, а использование метатега noindex – один из самых оптимальных способов не допустить попадания страницы в индекс Google .

С помощью тега вы можете заблокировать индексацию второстепенных страниц и впоследствии помочь сканерам поисковых систем сосредоточиться на вашем наиболее ценном контенте.

Эффективное сканирование и индексирование вашего веб-сайта являются ключом к максимальному использованию органического трафика, который ценные страницы могут привести на ваш сайт. Чтобы узнать больше о процессе индексации, обязательно прочитайте наше руководство по индексации SEO дальше!