51 подписчик

В России создали датасет, который ускорил обучение ИИ-моделей в 60 раз

27 февраля27 фев

1 мин

Открытый набор данных «Яндекса» помог исследователям из Нидерландов радикально сократить время обучения рекомендательных моделей без потери качества ответов В Европе использовали российский датасет, опубликованный ранее в открытом доступе, для обучения собственных ИИ-моделей и добились серьёзного ускорения обучения алгоритмов. Речь идёт о наборе Yandex, который компания опубликовала летом 2025 года. Полная версия содержит около пяти миллиардов элементов. Данные сформировали на основе обезличенной статистики «Яндекс Музыки», в том числе агрегированные прослушивания, лайки, дизлайки и характеристики треков. «Работа голландских учёных с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. «Яндекс», открыв Yandex, одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой об

Открытый набор данных «Яндекса» помог исследователям из Нидерландов радикально сократить время обучения рекомендательных моделей без потери качества ответов

В Европе использовали российский датасет, опубликованный ранее в открытом доступе, для обучения собственных ИИ-моделей и добились серьёзного ускорения обучения алгоритмов.

Речь идёт о наборе Yandex, который компания опубликовала летом 2025 года. Полная версия содержит около пяти миллиардов элементов. Данные сформировали на основе обезличенной статистики «Яндекс Музыки», в том числе агрегированные прослушивания, лайки, дизлайки и характеристики треков.

Открытые данные для обучения

«Работа голландских учёных с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. «Яндекс», открыв Yandex, одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области», — отметили в «Яндексе».

Российский датасет использовали учёные Амстердамского университета. Они доработали алгоритм SEATER, созданный ранее китайскими исследователями. Этот метод формирует иерархический каталог товаров или треков по принципу дерева папок, что в конечном итоге повышает точность выдачи рекомендаций.

Проблема заключалась в длительных сроках подготовки такого каталога. В реально работающих сервисах это существенно замедляло обновление рекомендаций и реакцию на поведение пользователей.

Нидерландские исследователи предложили два новых способа ускорения процесса и протестировали их на российских данных. Один из алгоритмов сократил время подготовки с 82 минут до 83 секунд. При этом качество рекомендаций почти не изменилось, а сама модель сохранила преимущества перед существующими рыночными системами.

В «Яндексе» подчеркнули, что код улучшенной версии SEATER опубликован в открытом доступе. Это позволяет другим исследователям использовать наработки и развивать технологии рекомендательных систем дальше.