Найти в Дзене
Н@Вкус

Яндекс.Толока и машинный интеллект

В течение последних двух с половиной лет компания "Яндекс" использует платформу Toloka для совершенствования своих поисковых алгоритмов и технологий машинного интеллекта. Неудивительно, что все современные технологии машинного обучения в той или иной степени требуют человеческой оценки. Человек оценивает релевантность ссылочного документа поисковому запросу и в соответствии с этим ориентируется на формулу поискового ранжирования. Человек транскрибирует запись речи в текст, чтобы алгоритм распознавания речи мог скорректировать ее на основе этих данных. Toloka - это краудсорсинговая платформа, которая помогает находить людей для решения поставленных задач. На сегодняшний день платформа доступна для внешних заказчиков в виде бета-версии. Поэтому мы хотели бы подробнее рассказать о самой платформе, поделиться своим видением некоторых неожиданных проблем, с которыми мы столкнулись в процессе работы над ней, и объяснить, чем конкретно Toloka может вам помочь. Традиционно Яндекс решает эти за

В течение последних двух с половиной лет компания "Яндекс" использует платформу Toloka для совершенствования своих поисковых алгоритмов и технологий машинного интеллекта. Неудивительно, что все современные технологии машинного обучения в той или иной степени требуют человеческой оценки.

Человек оценивает релевантность ссылочного документа поисковому запросу и в соответствии с этим ориентируется на формулу поискового ранжирования. Человек транскрибирует запись речи в текст, чтобы алгоритм распознавания речи мог скорректировать ее на основе этих данных.

Toloka - это краудсорсинговая платформа, которая помогает находить людей для решения поставленных задач. На сегодняшний день платформа доступна для внешних заказчиков в виде бета-версии. Поэтому мы хотели бы подробнее рассказать о самой платформе, поделиться своим видением некоторых неожиданных проблем, с которыми мы столкнулись в процессе работы над ней, и объяснить, чем конкретно Toloka может вам помочь.

Традиционно Яндекс решает эти задачи с помощью обученных специалистов-асессоров. Эксперты проверяют, насколько результаты поиска соответствуют запросу, находят и классифицируют спам среди найденных веб-страниц, а также решают аналогичные задачи для других сервисов.

Парадоксально, но чем больше появляется новых технологий, тем больше возрастает потребность в человеческой оценке. Недостаточно оценить релевантность поискового запроса странице.

  • Не пестрит ли страница вредоносной рекламой?
  • Содержит ли она материалы для взрослых?
  • Если да, то следует ли из запроса пользователя, что он искал именно это содержание?

Для того чтобы автоматически учитывать все эти факторы, необходимо собрать достаточное количество примеров для обучения поисковых систем. Кроме того, поскольку в Интернете все постоянно меняется, обучающий набор необходимо постоянно обновлять и поддерживать в актуальном состоянии. Как правило, только для поисковых задач потребность в человеческой оценке измеряется миллионами в месяц, и это число продолжает расти с каждым годом.

Яндекс.Толока и машинный интеллект
Яндекс.Толока и машинный интеллект

В каждой стране, где работает "Яндекс", организационно сложно привлечь больше оценщиков. В то же время не все новые задачи требуют специальной подготовки. Со многими задачами может справиться практически любой человек, и зачастую полезнее узнать мнение обычных пользователей, не обученных профессионально оценивать рейтинги. Такое разделение задач позволило сделать вывод о том, что помимо оценщиков необходимы более гибкие и масштабируемые человеческие источники принятия решений.

Помимо сложных задач, которые решают оценщики, нам пришлось научиться собирать миллионы простых оценок во всех интересующих нас странах. Большинство задач, о которых мы говорим, очень просты и невелики. Однако количество таких задач очень велико. Обычные внештатные биржи, где мы могли бы напрямую контактировать с несколькими исполнителями и прямо объяснять суть задач, нам не подходили. Чтобы выйти на промышленные масштабы, нам нужно было собрать тысячи исполнителей, оплачивать их труд без всякой бумажной волокиты и управлять результатами.