Google забывает об URL-адресах в очереди на индексирование
Опубликовано: 2021-12-21Ошибки индексации не являются чем-то необычным. У Google уже давно проблемы с индексацией. Они могут случиться с кем угодно и не по вине владельца сайта, независимо от размера сайта. Буквально в прошлом году был случай с ошибками индексации, связанными с мобильной индексацией и канонизацией.
Несколько месяцев назад я лично столкнулся с ошибкой индексации, когда выяснилось, что мое Ultimate Guide to Indexing SEO не было проиндексировано.
После тщательного исследования я обнаружил, что Google проиндексировал неправильную версию URL без видимой причины. Вы можете узнать больше об этой конкретной ошибке в моей статье «Мое полное руководство по индексации SEO не индексируется».
Ранее в этом году я обнаружил еще одну ошибку индексации, указывающую на то, что Google может терять URL-адреса в очереди на индексацию.
Давайте разберем его шаг за шагом.
Забытый URL в очереди индексации Google
6 октября мы опубликовали статью « Визуализация SEO: как Google усваивает ваш контент». Статья представляла собой расшифровку разговора между Бартошем Горалевичем из Onely, Мартином Сплиттом из Google и Джейсоном Барнардом из Kalicube.
К сожалению, за три недели с момента публикации статья не принесла трафика из Google.

Мне показалось это странным — еще одна интересная статья, не проиндексированная Google? Страдает ли Google очередной ошибкой индексации?
Поскольку я стремлюсь понять все тонкости процесса индексации Google, я решил провести небольшое расследование.
Я проверил, что консоль поиска Google должна была сказать об этом URL.
GSC заявил, что этот URL-адрес был «обнаружен — в настоящее время не проиндексирован».

Когда вы заглянете в документацию Google, вы найдете следующее объяснение статуса:
Обнаружено — в настоящее время не проиндексировано: страница была найдена Google, но еще не просканирована.источник: Гугл
Статус URL-адреса казался крайне маловероятным. Я не мог поверить, что Google не просканировал эту страницу в течение трех недель после публикации на относительно небольшом веб-сайте.
Итак, я проверил логи нашего сервера.
Журналы сервера позволяют вам исследовать трафик, поступающий на ваш сайт. Они содержат информацию о каждом запросе, включая его время и дату, строку пользовательского агента, IP-адрес и т. д. Благодаря этой информации я мог видеть, был ли (и когда) робот Googlebot на этой странице.
Удивительно, но я обнаружил, что Googlebot посетил страницу в день, когда мы опубликовали статью!
На тот момент у меня было две важные части информации:
- Данные из Google Search Console о том, что робот Googlebot еще не посещал страницу, не соответствовали действительности. Журналы сервера подтвердили, что робот Googlebot посещал URL-адрес в день публикации статьи.
- Это был не просто отчет об ошибке из Google Search Console. Страница не получала органического трафика, поэтому явно были более серьезные проблемы, чем просто ошибки в отчете.
Все больше сайтов страдают от ошибки индексации Google
Я хотел узнать больше об этой ошибке и ее масштабах, поэтому я изучил большую выборку веб-сайтов, чтобы сделать действенные выводы.

Я собрал журналы сервера с четырех других веб-сайтов и изучил данные.
Выяснилось, что 100% просмотренных мной сайтов страдали от этой проблемы. Робот Googlebot посещал несколько URL -адресов , но Google Search Console ошибочно классифицировал их как:
- Обнаружено – в настоящее время не проиндексировано или
- Неизвестный.
В случае со статусом «Неизвестно» похоже, что Google заявляет, что никогда не посещал страницу и даже не помнит, что обнаружил URL-адрес.

Я обнаружил, что проблема присутствовала на одной из протестированных страниц даже через 6 месяцев после того, как Google впервые посетил ее. Судя по логам сервера, последний визит был 7 марта, но 27 октября статус по-прежнему был Неизвестен.
Похоже, Google иногда забывает об URL-адресах в какой-то момент конвейера индексации. Неясно, просто ли поисковая система теряет некоторые URL-адреса или намеренно опускает их.
В любом случае последствия тяжелые. Забытые страницы не получают органического трафика.
Возможное решение ошибки
Дэн Шур поделился интересным случаем, связанным с ошибкой забытого URL.
Может ли «Обнаружено, но в настоящее время не проиндексировано» поместить URL-адрес в своего рода «черный список»?
Решил поделиться чем-то странным и интересным, что произошло с несколькими сообщениями в блоге клиента.
(1/5) (ненавижу создавать темы, но здесь нужно немного подробностей)
— Дэн Шур (@dan_shure) 8 ноября 2021 г.
Похоже, изменения URL-адреса было достаточно, чтобы решить проблему.
Дэн Шур был не единственным, кто тестировал это решение. Фрэнк Оливо проиндексировал почти ⅓ своих статей, изменив их URL!
Это сработало примерно для 12 из 38 статей, на которых мы пробовали. Все проиндексировано в тот же день, когда мы переиздали. Остальные статьи все же "обнаружены" спустя почти месяц.
— Фрэнк Оливо (@FrancoOlivo) 7 декабря 2021 г.
Возможно, эти URL-адреса попадали под шаблоны низкокачественных URL-адресов, поэтому Google не сканировал их и, таким образом, классифицировал их как «Обнаруженные — в настоящее время не проиндексированные» в Google Search Console.
Вы можете убедить Google рассматривать страницу как новую и снова просканировать ее, изменив URL-адрес. Это решение может помочь проиндексировать страницу, но это всего лишь обходной путь. Это не предотвращает повторения проблемы. Google должен решить проблему, и ошибка должна быть исправлена навсегда.
Подведение итогов
Как описано в статье, существует серьезная проблема с индексацией. Это не так очевидно и зрелищно, как предыдущие ошибки индексации (например, связанные с канонизацией), но все же может негативно повлиять на любой веб-сайт.
Если вы сотрудник Google и хотите разобраться в проблеме, я могу поделиться некоторыми примерами URL-адресов, затронутых этой проблемой.
Вы заметили эту или подобную ошибку индексации на своем сайте? Дай мне знать!
