«Яндекс» опубликовал один из крупнейших в мире датасетов для развития рекомендательных систем Yandex Music Billion-Interactions Dataset (YaMBDa) — это large-scale-датасет, построенный на логах Яндекс Музыки. Но использовать его можно для оценки качества любых рекомендательных систем, так как в их основе лежат общие алгоритмы. Датасет представлен в трёх вариантах: полная версия содержит 5 миллиардов данных, уменьшенные — 500 миллионов и 50 миллионов. Разработчики и исследователи смогут выбрать тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам. Данные датасета и код для замеров доступны на HuggingFace https://huggingface.co/datasets/yandex/yambda
«Яндекс» опубликовал один из крупнейших в мире датасетов для развития рекомендательных систем
28 мая 202528 мая 2025
~1 мин