Google — Самая популярная поисковая система в интернете. Казалось бы, что все элементарно и просто, ввел запрос - получил ответ. Но на самом деле, Google поиск - это сложнейший алгоритм, способный распознать даже самый нетипичный запрос. В официальном блоге компании вице-президент «Google Поиска» рассказал, как разработчикам поискового гиганта удалось обучить систему понимать «разговорный язык» пользователей.
Панду Найак рассказал, что в течение 15 лет работы над «Google Поиском» он постоянно сталкивался с тем, что пользователи регулярно вводят всё новые и новые запросы, 15% которых были абсолютно незнакомы системе. По его словам, люди по-прежнему пользуются запросами, состоящими из набора ключевых слов, думая, что системе так будет легче их понять.
Поднять качество распознавания запросов на новый уровень позволили технологии машинного обучения. Корпорация назвала этот период «крупнейшим прорывом за последние пять лет и грандиозным успехом за всю историю существования поисковика». Для того чтобы прокачать поисковик программисты использовали технологию предварительного обучения обработке текста на естественном языке BERT, использующую нейронные сети. Искусственный интеллект научился не только обрабатывать отдельные слова, но и понимать контекст фразы целиком.
Из-за роста сложности поисковых запросов Google пришлось использовать специальные тензорные процессоры — они смогли обеспечить компанию необходимой вычислительной мощностью для анализа актуальной информации. Использование таких процессоров и задействование нейронных сетей позволило Google Поиску лучше понимать длинные запросы, а также запросы с предлогами.
Примечательно, что технология BERT применяется и к русскому языку. Приведённый запрос «Может ли преподаватель выгнать студента с занятия?» был обработан именно этим способом. И алгоритм составления поисковой выдачи в этом случае будет существенно отличаться от запроса «Имеет ли преподаватель право не пустить студента на пару?».
Google рассказала, как поисковая система научилась распознавать запросы, уделяя внимание деталям. Так, при вводе в строку поиска «памятник строителям коммунизма у Цимлянского водохранилища» поисковик предлагает именно информацию о монументе, а не о самом водохранилище, как было несколько лет назад.
Приоритетной задачей поискового сервиса остаётся максимально точное распознавание пользовательских запросов, и компания продолжает активно работать в этом направлении.