Google забывает об URL-адресах в очереди на индексирование

Опубликовано: 2021-12-21

Ошибки индексации не являются чем-то необычным. У Google уже давно проблемы с индексацией. Они могут случиться с кем угодно и не по вине владельца сайта, независимо от размера сайта. Буквально в прошлом году был случай с ошибками индексации, связанными с мобильной индексацией и канонизацией.  

Несколько месяцев назад я лично столкнулся с ошибкой индексации, когда выяснилось, что мое Ultimate Guide to Indexing SEO не было проиндексировано.

После тщательного исследования я обнаружил, что Google проиндексировал неправильную версию URL без видимой причины. Вы можете узнать больше об этой конкретной ошибке в моей статье «Мое полное руководство по индексации SEO не индексируется».

Ранее в этом году я обнаружил еще одну ошибку индексации, указывающую на то, что Google может терять URL-адреса в очереди на индексацию.  

Давайте разберем его шаг за шагом.

Содержимое скрыть
1 Забытый URL в очереди индексации Google
Еще 2 веб-сайта страдают от ошибки индексации Google
3 Возможное решение ошибки
4 Подведение итогов

Забытый URL в очереди индексации Google

6 октября мы опубликовали статью « Визуализация SEO: как Google усваивает ваш контент». Статья представляла собой расшифровку разговора между Бартошем Горалевичем из Onely, Мартином Сплиттом из Google и Джейсоном Барнардом из Kalicube.

К сожалению, за три недели с момента публикации статья не принесла трафика из Google.

скриншот Google Search Console, показывающий отсутствие трафика

Мне показалось это странным — еще одна интересная статья, не проиндексированная Google? Страдает ли Google очередной ошибкой индексации?

Поскольку я стремлюсь понять все тонкости процесса индексации Google, я решил провести небольшое расследование.

Я проверил, что консоль поиска Google должна была сказать об этом URL.

GSC заявил, что этот URL-адрес был «обнаружен — в настоящее время не проиндексирован».  

Снимок экрана инструмента проверки URL, показывающий, что URL не находится в Google

Когда вы заглянете в документацию Google, вы найдете следующее объяснение статуса:

Обнаружено — в настоящее время не проиндексировано: страница была найдена Google, но еще не просканирована.
источник: Гугл

Статус URL-адреса казался крайне маловероятным. Я не мог поверить, что Google не просканировал эту страницу в течение трех недель после публикации на относительно небольшом веб-сайте.

Итак, я проверил логи нашего сервера.

Журналы сервера позволяют вам исследовать трафик, поступающий на ваш сайт. Они содержат информацию о каждом запросе, включая его время и дату, строку пользовательского агента, IP-адрес и т. д. Благодаря этой информации я мог видеть, был ли (и когда) робот Googlebot на этой странице.

Удивительно, но я обнаружил, что Googlebot посетил страницу в день, когда мы опубликовали статью!

На тот момент у меня было две важные части информации:

  1. Данные из Google Search Console о том, что робот Googlebot еще не посещал страницу, не соответствовали действительности. Журналы сервера подтвердили, что робот Googlebot посещал URL-адрес в день публикации статьи.
  2. Это был не просто отчет об ошибке из Google Search Console. Страница не получала органического трафика, поэтому явно были более серьезные проблемы, чем просто ошибки в отчете.

Все больше сайтов страдают от ошибки индексации Google

Я хотел узнать больше об этой ошибке и ее масштабах, поэтому я изучил большую выборку веб-сайтов, чтобы сделать действенные выводы.

Я собрал журналы сервера с четырех других веб-сайтов и изучил данные.

Выяснилось, что 100% просмотренных мной сайтов страдали от этой проблемы. Робот Googlebot посещал несколько URL -адресов , но Google Search Console ошибочно классифицировал их как:

  • Обнаружено – в настоящее время не проиндексировано или
  • Неизвестный.

В случае со статусом «Неизвестно» похоже, что Google заявляет, что никогда не посещал страницу и даже не помнит, что обнаружил URL-адрес.

Мем с Гэндальфом, говорящим "Я не помню этот URL"

Я обнаружил, что проблема присутствовала на одной из протестированных страниц даже через 6 месяцев после того, как Google впервые посетил ее. Судя по логам сервера, последний визит был 7 марта, но 27 октября статус по-прежнему был Неизвестен.

Похоже, Google иногда забывает об URL-адресах в какой-то момент конвейера индексации. Неясно, просто ли поисковая система теряет некоторые URL-адреса или намеренно опускает их.

В любом случае последствия тяжелые. Забытые страницы не получают органического трафика.

Возможное решение ошибки

Дэн Шур поделился интересным случаем, связанным с ошибкой забытого URL.

Похоже, изменения URL-адреса было достаточно, чтобы решить проблему.

Дэн Шур был не единственным, кто тестировал это решение. Фрэнк Оливо проиндексировал почти ⅓ своих статей, изменив их URL!

Возможно, эти URL-адреса попадали под шаблоны низкокачественных URL-адресов, поэтому Google не сканировал их и, таким образом, классифицировал их как «Обнаруженные — в настоящее время не проиндексированные» в Google Search Console.

Вы можете убедить Google рассматривать страницу как новую и снова просканировать ее, изменив URL-адрес. Это решение может помочь проиндексировать страницу, но это всего лишь обходной путь. Это не предотвращает повторения проблемы. Google должен решить проблему, и ошибка должна быть исправлена ​​навсегда.

Подведение итогов

Как описано в статье, существует серьезная проблема с индексацией. Это не так очевидно и зрелищно, как предыдущие ошибки индексации (например, связанные с канонизацией), но все же может негативно повлиять на любой веб-сайт.

Если вы сотрудник Google и хотите разобраться в проблеме, я могу поделиться некоторыми примерами URL-адресов, затронутых этой проблемой.

Вы заметили эту или подобную ошибку индексации на своем сайте? Дай мне знать!