Добавить в корзинуПозвонить
Найти в Дзене
ТАСС Наука

Российская разработка помогла европейским ученым ускорить обучение ИИ в 60 раз

МОСКВА, 26 февраля. /ТАСС/. Созданный в России крупнейший набор данных для обучения рекомендательных систем помог исследователям из Европы разработать подход, который позволяет в десятки раз ускорить обучение ИИ без потери качества. Об этом ТАСС сообщила пресс-служба "Яндекса". "Работа голландских ученых с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. "Яндекс", открыв Yambda, одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области", - говорится в сообщении. Как отмечается в сообщении, в начале лета 2025 года исследователи из "Яндекса" разработали и опубликовали в открытом доступе один из крупнейших в мире наборов данных для развития рекомендательных систем, полная версия которых включает в себя пять миллиардов элементов. Он был построен на базе обезличе
Александр Рюмин/ТАСС
Александр Рюмин/ТАСС

МОСКВА, 26 февраля. /ТАСС/. Созданный в России крупнейший набор данных для обучения рекомендательных систем помог исследователям из Европы разработать подход, который позволяет в десятки раз ускорить обучение ИИ без потери качества. Об этом ТАСС сообщила пресс-служба "Яндекса".

"Работа голландских ученых с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. "Яндекс", открыв Yambda, одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области", - говорится в сообщении.

Как отмечается в сообщении, в начале лета 2025 года исследователи из "Яндекса" разработали и опубликовали в открытом доступе один из крупнейших в мире наборов данных для развития рекомендательных систем, полная версия которых включает в себя пять миллиардов элементов. Он был построен на базе обезличенных данных "Яндекс. Музыки" и включал в себя агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики музыкальных записей.

Набор обучающих данных был недавно использован учеными из Амстердамского университета для разработки нового подхода к обучению рекомендательных систем, основанных на базе созданного китайскими учеными алгоритма SEATER. Он позволяет организовать все товары или треки в умный иерархический каталог, похожий на дерево папок на компьютере.

В теории, каталог позволяет системе быстрее и точнее выдавать рекомендации, однако при этом его подготовка занимает очень много времени в процессе обучения. В реальных продуктах это мешало часто обновлять рекомендации и быстро реагировать на изменения пользовательских предпочтений. Нидерландские исследователи подготовили два альтернативных подхода, позволяющих ускорять подготовку каталога, и проверили их на данных "Яндекса".

Эти проверки показали, что один из новых алгоритмов сократил время подготовки данных с 82 минут до 83 секунд - почти в 60 раз, при этом он почти не повлиял на качество рекомендаций, благодаря чему созданный китайскими специалистами алгоритм по-прежнему превосходит уже популярные и применяющиеся на рынке системы. Как отметили в "Яндексе", весь код улучшенной модели SEATER был выложен в открытый доступ, что наглядно демонстрирует пользу от публикации и использования больших наборов данных для разработки и обучения ИИ.