«Поиск – всего лишь строчка, в которой можно задать любой вопрос и получить ответ, но за этой простотой скрывается доступ к информации всего мира».
(c) Андрей Стыскин
Вчера в Планетарии с помощью Большой Красной Кнопки был публично запущен в продакшн новый алгоритм поиска «Королёв», а журналистам и блогерам рассказали о том, что у него «под капотом». Трансляцию смотрело больше 10 тысяч человек. Презентацию вёл руководитель Поиска Андрей Стыскин.
На запуск приехало множество телеканалов – Первый, Россия 1 и Россия 24, Вести, Известия – проще перечислить тех, кто не приехал. На момент вечера 23 августа вышло 455 публикаций.
Александр Сафронов, руководитель службы релевантности и лингвистики, того самого конструкторского бюро, где проектировался и внедрялся новый поиск Яндекса, начал с истории улучшений поиска.
Первые поисковые системы были наивны, они делали простую операцию – показывали страницы, содержащие слова. Со временем точность повышалась, а алгоритмы усложнялись: мы поняли, что страницы не обязаны включать в себя все слова из запроса, и что эти слова должны быть расположены не как попало, а поближе друг к другу.
Теперь специалисты убедились: чтобы создать действительно хороший поиск, нужно искать не по словам, а по смыслу. У нас был умный поиск, но мы хотели большего – лучше понимать смысл запросов и интернет-страниц. В Палехе были сделаны первые шаги в сторону семантического поиска. Королёв – следующая ступень понимания.Королёв осуществил мечту человечества о полётах в космос. «Королёв» начался с мечты о поиске, который понимает пользователя. В его основе – искусственные нейронные сети, которые сейчас переживают бум развития. Сами по себе искусственные нейроны просты, но их можно объединить в нейронную сеть, которая может выполнять сложные задачи. И эту сеть можно обучать, показывая ей много обучающих примеров.
Мы начали работать с моделью DSSM, состоящей из двух частей, из запросов и текстов страниц, показывая ей положительные – связанные по смыслу – и отрицательные примеры.
В этой работе на помощь поиску приходят пользователи. Ежедневно люди совершают много запросов, кликов и переходов по выдаче – это наша BigData. На основании массива пользовательского поведения мы делаем примеры для нашей нейронной сети. Подавая на вход нейронной сети примеры, мы можем обучить отличать связанные по смыслу пары текстов. После такой тренировки модель способна представить текст в виде набора чисел – это семантический вектор, в которую превращается любой текст в трёхсотмерном пространстве смыслов. Человеку такое сложно даже представить, зато нейронная сеть ориентируется в нём очень хорошо.
Чем ближе тексты по смыслу, тем больше будет сходство чисел этих векторов и тем ближе друг к другу будут расположены «стрелки» векторов. Поиск Яндекса использует нейросети давно, но в этом алгоритме их влияние увеличилось. Мы давно умеем искать слова в теле страницы, но раньше мы оценивали при помощи векторов близость запроса и заголовка страницы, а теперь смотрим на всё тело страницы. Кроме того, мы научились учитывать тексты запросов, по которым раньше на эту страницу приходили наши пользователи.
Ещё одно изменение связано с количество страниц, которые ищутся нейронными сетями. Раньше их было 150 по каждому запросу. В Королёве это 200 тысяч.
Но чтобы запустить ракету в космос, недостаточно теоретических расчётов и труда инженеров – нужно много простой работы, много правильных данных. О работе асессоров и толокеров, и о том, как люди помогают нам обучать искусственный интеллект, рассказала Ольга Мегорская.
Сегодня удалось сделать возможным то, что вчера казалось фантастикой. Нейронные сети научились самостоятельно творить – они создают музыку и картины. В Поиске используется те же технологии. Поиск – это десятки миллионов уникальных запросов от пользователя, каждый из которых ищет своё. Заранее готовых эталонных примеров, как в случае с картинами, у нас нет, и данные для обучения поиска нам приходится готовить самим. Этим занимаются асессоры. Задача асессора – оценить, насколько документ соответствует пользовательскому запросу. Но один и тот же запрос может иметь множество самых разных трактовок. Мы не читаем мысли пользователя и не знаем правильного ответа. Для того, чтобы ориентироваться во множестве трактовок и смыслов, надо обрабатывать как можно больше запросов и собирать для них оценки релевантности. Из года в год мы увеличивали количество оценок в базе, но и поиск развивался. Асессоров стало больше полутора тысяч, но этого количества не хватало: технологии развиваются так быстро, что ограниченная команда не способна удовлетворить потребности в обучающих данных.
И тогда мы создали Толоку, открытую систему для всех, кто нуждается в данных. Мы выбрали для системы название старинной деревенской традиции, когда вся деревня собиралась, чтобы сделать дело, не под силу одному человеку. Теперь у нас больше миллиона толокеров и больше 2 млрд оценок. Открытие Толоки – колоссальный рывок в масштабируемости: раньше асессоры принимали участие в десятках разных проектов, теперь толокеры участвуют в полутора тысячах. Среди заданий есть оценка релевантности документов, задания для развития геопоиска и карт, когда толокеры ходят по разным регионам и проверяют актуальность базы организаций, а также настройка речевых технологий, которая очень важна для самых новых пользователей Поиска.
Если мы хотим, чтобы искусственный интеллект был разумным и последовательным, данные должны быть такими же, но наши толокеры – разные люди. Среди них есть оптимисты и пессимисты, ставящие совершенно разные оценки. Мы хотим получить наиболее правдоподобные оценки и используем математические модели, выбираем итоговую оценку, учитывая нашу степень доверия каждому толокеру из тех, кто выполняет задание. Мы собираем информацию о точности оценок и сводим данные в универсальный рейтинг толокеров.
Лучшим толокером был назван челябинец Илья Михалeнко, приехавший в Москву на презентацию запуска.
После этого на вопросы ведущего и гостей запуска ответили прямо из космоса, с борта Международной космической станции космонавты Фёдор Юрчихин и Сергей Рязанский – при помощи микрофона, плавающего в невесомости.
Они рассказали, что в космосе есть интернет, однако скорости у него не космические, что космонавты ведут соцсети и спрашивают поиск о географических объектах, которые видят с орбиты. Также они немного рассказала об экспериментах, которые проводятся в космосе – это эксперименты, связанные с радиолюбительской связью, изучением опорно-двигательного аппарата и другие медико-биологические, физические и химические эксперименты. Дело в том, что сама станция – это большая научная лаборатория, в которой проводится порядка 100 экспериментов на экспедицию.
Почему космонавты смотрят Белое солнце пустыни и правда ли это?
Да, это традиция, которая сложилась сразу после выхода фильма. На его базе космонавты раньше сдавали экзамены на восприятие и память. Например, было задание перечислить имена всех многочисленных жён в паранджах, вспомнить, какую икру не мог есть Верещагин и как звали кота Сухова.
Можно ли плакать в космосе?
Плакать можно, но слёзы будут скапливаться в глазу и не падать и не стекать и просто висеть пузырём, это неудобно. Кроме того, «настоящие мужчины не плачут, они огорчаются».
Как стать космонавтом?
Самое главное – мечтать. Не переставать мечтать.Так можно достичь всего, что вы хотите. Если у вас есть цель полететь в космос, вы добьётесь этого. Всё начинается с мечты. Имейте мечты, ставьте мечту целью. Никогда не бойтесь ставить перед собой высокие цели, потому что ваша жизнь в ваших руках.
Следом Андрей Стыскин рассказал о принципах понимания, одинаковых для человека и нейросети, поиске по картинкам и том, что привлекло внимание многих журналистов – котиках в космосе.
Почему космос так манит человека? Мы знаем, что вселенная огромна и там есть планеты, похожие на нашу, где может существовать жизнь, а значит - и разум. Фантасты представляют, как может выглядеть нечеловеческий разум, но он может существовать рядом с нами прямо сейчас.
«Королёв» – это искусственный интеллект, который понимает пользователя. Наш мозг способен понимать значение слова из контекста или представить, как может выглядеть что-то, чего мы не видели. Это могут и нейросети.
Раньше поиск по картинкам был поиском по ключевым словам, описывающим картинку, расположенным с ней рядом. Сейчас ключевую роль в нём играют нейросети, анализирующие изображение. Как наша нейросеть представляет себе кошку в космосе? Это хороший пример, поскольку кошки, в отличие от собак, в космос не летали. Была одна попытка в Франции, однако кошка сбежала и с тех пор кошек-космонавтов не было.
Помимо всего прочего, нейросеть, подбирая картинки к запросу, выводит фото кошки в стиральной машине. На странице с этой картинкой нет ни слова про космос, однако нейросеть видит кошку, алюминиевый каркас и иллюминатор.
Она видит кошку в иллюминаторе и делает вывод о релевантности картинки запросу: как это сделал бы человек, основывающий свои выводы на базе огромного количества разных картинок и фотографий, относящихся к теме. Именно такое понимание критически важно для поиска текстов по смыслу. «Королёв» способен понять суть описание из запроса – это и есть настоящее понимание.
Сейчас поиском Яндекса пользуется больше половины россиян, и это технология, которая с каждым кликом, с каждым действием становится лучше, делая выводы, ошибаясь и учитывая всё новые данные.
Вместе с каждым человеком, который пользуется сервисами Яндекса, мы делаем лучший поиск по России
За фото спасибо Ане Тепловой.