В октябре 2023 года Панду Найак давал показания в суде по иску США против Google, раскрыв много новых фактов о том, как устроен поиск. Вот основные факты, о которых вам стоит знать.
Работа с индексом
Google постоянно сканирует мировую сеть и копирует страницы, создавая индекс. В 2020 году в индексе поисковой системы содержалось около 400 миллиардов страниц. По словам вице президента, больше не значит лучше, потому что индекс может пополниться бесполезными сайтами.
Можно поддерживать размер индекса в тех же пределах, если не добавлять мусор. Удаление бесполезных сайтов из индекса — другой способ улучшить его качество.
Для каждого запроса необходимо извлечь документы из индекса, которые ему соответствуют. Основа этого процесса — сам индекс. Индекс содержит для каждого слова данные о том, на каких страницах оно встречается. Это называется инвертированным индексом. Механизм заключается в рассмотрении слов в запросе, прохождении по списку и пересечении этого списка.
Поскольку нельзя пройти по всем спискам до конца из-за их объема, индекс сортируется так, чтобы более качественные страницы, высокого качества — ранее для этого использовался PageRank — оказываются в начале списка. Важно, чтобы все слова из запроса были извлечены.
Ранжирование индекса необходимо для оптимизации поиска.
Ранжирование
Основная проблема ранжирования в том, что миллионы документов в индексе соответствуют запросу. Поэтому Google использует сотни алгоритмов и моделей машинного обучения. Они нужны, чтобы сократить индекс до разумной релевантной выборки.
По словам Панду Найвка, сейчас Google использует около 100 сигналов ранжирования. Вот основные из них:
- сам документ;
- тематичность;
- качество страницы;
- надежность;
- локализация;
- Navboost.
Основные алгоритмы ранжирования
Они сокращают количество релевантных документов из индекса до нескольких сотен. Алгоритмы присваивают страницам изначальный рейтинг. Каждая страница, соответствующая запросу, получает такую оценку. Затем поиск ранжирует ответы по присвоенному рейтингу.
Что такое Navboost?
Найак говорит, что это один из важнейших сигналов, используемых Google. Navboost обучается на пользовательских данных. Алгоритм запоминает все клики по запросам за предшествующие 13 месяцев. До 2017 года Navboost запоминал выбор пользователей по запросу за 18 месяцев.
Система была запущена еще в 2005 году, со временем она претерпела множественные изменения. Navboost также призван сократить выборку тематических документов до разумного количества для последующей обработки системами машинного обучения. Этот алгоритм никак не может помочь с ранжированием документов, которые не получили ни одного клика. Поэтому Navboost — не единственный алгоритм, отвечающий за результаты поиска.
Этот алгоритм использует информацию о местоположении запроса и сопоставляет с данными в индексе по локализации.
Glue — еще одно название для Navboost. С его помощью считываются данные по действиям пользователей со страницы выдачи.
Glue собирает клики, наведения, прокрутки и свайпы, и создает общую метрику для сравнения результатов и функций поиска. Этот процесс определяет, сработает ли функция поиска, и где она появится на странице.
С 2021 года также применяется Instant Glue — он учитывает те же действия и данные пользователей только за последние 24 часа, а срез проводится каждые 10 минут. Это обеспечивает актуальность результатов.
Проблемы с асессорами результатов поиска
Для оценки качества и релевантности результатов поиска по запросу Google привлекал команду асессоров. Они также тестировали изменения алгоритмов для оценки качества новых результатов.
При работе с поиском и выдачей асессоры должны поставить себя на место обычного пользователя. Но каждый человек приходит в поиск с определенным намерением, угадать которое практически невозможно. Асессоры также могут не понимать технические запросы. Они не могут объективно оценить популярность того или иного запроса. В расчете IS балла (Information Satisfaction) оценщики уделяют недостаточно внимания актуальности. Поэтому их работа очень слабо отражает, как пользователи взаимодействуют с поиском.
Google использует клики, чтобы лучше понимать взаимодействие пользователей с результатами поиска. Не индивидуальные клики, а массивы данных.
Google не стремится показать результаты, которые пользователи кликают чаще всего. Это приведет к резкому снижению качества выдачи. Задача Google — показать результаты, которые пользователи захотят кликнуть.
Ежедневно Google получает около 1,000,000, 000 новых пользовательских данных для оценки. Алгоритмы обрабатывают эти данные. На основе результатов предсказывают, какие результаты пользователи кликнут с большей вероятностью.
Когда Google говорит о сборе пользовательских данных, то предполагаются именно клики и запросы.
Алгоритм Priors
Это дополнительный алгоритм, решающий проблему выбора. Приоритет получает тот результат, который чаще выбирали другие пользователи. Если Google ничего не знает о пользователе, это лучшее решение для выборки ответов, которые можно ему показать. Google учитывает, какие пользователи выбрали результат и какие действия их описывают.
Новые для Google пользователи сопоставляются с известными группами. При этом система не использует типовые демографические характеристики. Google анализирует действия группы и сопоставляет новых пользователей по поведенческому сходству.
Вместо заключения
Индекс Google стал настолько велик, что результаты работы простых механизмов поиска и сопоставления оказываются бесполезными. Полученную выборку нужно рассортировать. Именно поэтому применяется множество алгоритмов и систем машинного обучения.
Google использует пользовательские сигналы для ранжирования результатов: в основном это действия на странице поисковой выдачи.
Работа асессоров слабо отражает, как пользователи взаимодействуют с поиском и результатами. Чтобы получить более реальную картину, Google использует кликовые сигналы. Алгоритмы на основе кликов — Navboost, Glue, Instant Glue.
Google также использует алгоритм Priors, который определяет, какие результаты показать пользователю, если по нему нет никакой истории и данных. Система использует лишь кликовый фактор и действия в поиске, а не демографические характеристики.