Добавить в корзинуПозвонить
Найти в Дзене
Технологии

Сдвиг данных в машинном обучении

Одной из проблем машинного обучения является проблема сдвига данных. Ситуации, когда алгоритмы, обученные на одних данных, попадают в новые условия. От того, насколько хорошо алгоритм умеет действовать в условиях “сдвига данных”, будет зависеть эффективность его работы и широта применения. Сейчас в рамках крупнейшей в мире конференции по машинному обучению NeurIPS 2021 Яндекс вместе с учеными Оксфорда и Кембриджа придумали соревнование, - участникам предстоит создать алгоритмы для предсказания поведения участников автомобильного движения, для машинного перевода текстов или предсказания погоды, обучить их на предоставленных данных, а затем проверить качество их работы в условиях сдвига. Разработчики алгоритмов, показавшие лучшее качество работы в условиях сдвига, получат денежные призы. На данный момент доступные ученым наборы данных “со сдвигом” ограничены и зачастую созданы искусственным путем. Яндекс, при этом, часто сталкивается с самыми различными реальными условиями при работе

Одной из проблем машинного обучения является проблема сдвига данных. Ситуации, когда алгоритмы, обученные на одних данных, попадают в новые условия. От того, насколько хорошо алгоритм умеет действовать в условиях “сдвига данных”, будет зависеть эффективность его работы и широта применения.

Сейчас в рамках крупнейшей в мире конференции по машинному обучению NeurIPS 2021 Яндекс вместе с учеными Оксфорда и Кембриджа придумали соревнование, - участникам предстоит создать алгоритмы для предсказания поведения участников автомобильного движения, для машинного перевода текстов или предсказания погоды, обучить их на предоставленных данных, а затем проверить качество их работы в условиях сдвига. Разработчики алгоритмов, показавшие лучшее качество работы в условиях сдвига, получат денежные призы.

На данный момент доступные ученым наборы данных “со сдвигом” ограничены и зачастую созданы искусственным путем. Яндекс, при этом, часто сталкивается с самыми различными реальными условиями при работе своих сервисов, и сейчас может поделиться опытом, предоставляя данные для исследований.

Компания откроет доступ к самому большому датасету по беспилотным автомобилям: Яндекс тестирует такие авто одновременно в разных городах, странах и погодных условиях. Датасет содержит 600 000 дорожных сцен или более 1 600 часов движения, собранных за полгода в России, Израиле и США, в хорошую погоду, в снег и в дождь. Два других датасета содержат данные из сервисов Яндекс.Погода и Яндекс.Переводчик.

Решения, которые будут разработаны в рамках конкурса, можно будет применять и в других сферах, где есть проблема сдвига данных, таким образом отрасль будет двигаться вперед, очень круто что в авангарде технологий стоит именно Яндекс.