Раскрывая секреты SEO: все это семантика для поиска Google

Опубликовано: 2017-10-17

Такие вехи, как Knowledge Graph, Hummingbird и RankBrain, помогли Google на несколько шагов приблизиться к тому, чтобы стать идеальной поисковой системой. Статистика, семантические теории и структуры, а также машинное обучение играют важную роль. В последнем выпуске Unwrapping the Secrets of SEO приглашенный автор Олаф Копп исследует аспекты семантики и машинного обучения в поиске Google.

В последнем выпуске « Раскрывая секреты SEO» я изложил свое мнение о том, как Google интерпретирует поисковые запросы и стоящие за ними намерения пользователя. Теперь пришло время взглянуть на то, как Google так хорошо справляется с повышением точности поиска.

Семантический поиск или поиск статистической информации?

У меня было много горячих споров (цивилизованных дебатов?) с коллегой по SEO Дженсом Фолдратом по поводу того, действительно ли Google является семантической поисковой системой.

Результаты, которые Google представляет своим пользователям, безусловно, создают впечатление, что гигант поисковых систем обладает высокоразвитым семантическим пониманием поисковых запросов и документов. Однако многое из того, что приводит к такому внешнему виду, основано на статистических методах, а не на каком-либо подлинном семантическом понимании. Но благодаря семантическим структурам в сочетании со статистикой и машинным обучением Google теперь может приблизиться к семантическому пониманию.

«Например, мы обнаружили, что полезные семантические отношения могут быть автоматически изучены из статистики поисковых запросов и соответствующих результатов или из накопленных свидетельств веб-текстовых шаблонов и форматированных таблиц, в обоих случаях без необходимости каких-либо аннотированных вручную данных. ” Источник: The Unreasonable Effectiveness of Data, IEEE Computer Society, 2009 г.

Как работает Word2Vec

Чтобы продемонстрировать это яснее, я вкратце расскажу о статистическом анализе текста. Google использует анализ векторного пространства для оценки релевантности и выявления взаимосвязей. Векторное пространство состоит из отдельных точек данных, которые могут быть связаны через векторы в векторном пространстве. Угол между векторами говорит нам о сходстве и/или отношениях между точками данных. Чем больше угол, тем меньше сходства. Чем меньше угол, тем больше сходство. Для анализа основных компонентов, например, создается вектор в векторном пространстве из поискового запроса и всех доступных релевантных документов. Для этого так называемого процесса «встраивания слов» Google использует Word2vec.

Использование близости точек данных друг к другу позволяет показать семантические отношения между ними. Как правило, векторы создаются для поисковых запросов и документов, которые можно размещать относительно друг друга. Другое использование — создание векторов из документа и терминов в нем, чтобы определить его концепцию или тему. Также можно было бы формировать векторы из таких объектов, как люди, бренды, компании или темы.

Чтобы использовать анализ векторного пространства, документы сначала необходимо проиндексировать и сопоставить с понятиями или тематическими областями, которые затем составляют соответствующий тематический корпус. Процесс выполнения этого шага — скрытое семантическое индексирование (LSI), которое позволяет создавать векторные пространства, обеспечивающие наилучшие результаты с точки зрения точности и полноты. С помощью этого метода также можно проводить семантическую классификацию или кластеризацию терминов, относящихся к теме.

Как поисковые запросы могут быть автоматически классифицированы

В прошлом основной проблемой было отсутствие масштабируемости, поскольку поисковые запросы приходилось классифицировать вручную. Это слова бывшего вице-президента Google Мариссы Майер по этому поводу из интервью 2009 года:

«Когда люди говорят о семантическом поиске и семантической сети, они обычно имеют в виду что-то очень ручное, с картами различных ассоциаций между словами и тому подобными вещами. Мы думаем, что вы можете достичь гораздо лучшего уровня понимания с помощью сопоставления данных с образцом и создания крупномасштабных систем. Так работает мозг. Вот почему у вас все эти нечеткие связи, потому что мозг постоянно обрабатывает много-много данных… Проблема в том, что язык меняется. Веб-страницы меняются. То, как люди выражают себя, меняется. И все эти вещи имеют значение с точки зрения того, насколько хорошо применяется семантический поиск. Вот почему лучше иметь подход, основанный на машинном обучении, который изменяет, итерирует и реагирует на данные. Это более надежный подход. Это не означает, что семантический поиск не имеет отношения к поиску. Просто мы действительно предпочитаем фокусироваться на вещах, которые можно масштабировать. Если бы мы могли придумать масштабируемое решение для семантического поиска, мы были бы очень рады этому. На данный момент мы видим, что многие наши методы приближаются к интеллекту семантического поиска, но делают это другими средствами». Источник: http://www.pcworld.com/article/181874/article.html.

Многое из того, что мы называем семантическим пониманием, когда говорим о том, что Google идентифицирует значение поискового запроса или документа, основано на статистических методах, таких как анализ векторного пространства, или методах статистического анализа текста, таких как TF-IDF. Следовательно, строго говоря, это не основано на подлинной семантике. Но результаты очень близки к семантическому пониманию. Более широкое применение машинного обучения — и более подробный анализ, который это позволяет — значительно упрощает семантическую интерпретацию поисковых запросов и документов.

Семантическое понимание как одна из целей Google

Одной из наиболее важных целей Google является достижение семантического понимания условий поиска и проиндексированных документов для отображения более релевантных результатов поиска. Семантическое понимание существует, когда (поисковый) запрос и термины, содержащиеся в нем, могут быть однозначно поняты. Однозначная интерпретация часто затруднена из-за запросов, включающих термины с несколькими значениями, термины, неизвестные системе, нечеткие формулировки, индивидуальное понимание и т. д.

Чтобы помочь пониманию, проводится анализ используемых слов, их порядка и контекста их темы, времени и места. Машинное обучение и/или RankBrain позволяют Google использовать кластерный анализ для автоматического создания новых классов и назначения им поисковых запросов. Это не только обеспечивает высокий уровень детализации, но также обеспечивает масштабируемость и повышает производительность. Также стало возможным создание новых векторных пространств для анализа векторного пространства.

Таким образом, статистика в сочетании с машинным обучением дает все более семантическую интерпретацию, которая очень близка к семантическому пониманию поисковых запросов и документов. Google хочет воссоздать по-настоящему семантический поиск с помощью статистических методов и машинного обучения. Кроме того, центральный элемент современной поисковой системы Google, Граф знаний, также основан на семантических структурах.

В третьей части этой серии статей о семантике и машинном обучении Google Олаф Копп рассмотрит « Основы семантики: графы, сущности и онтологии».