Рекомендательные системы — ключевой элемент современных цифровых сервисов, от стриминговых платформ до интернет-магазинов. Их качество напрямую зависит от данных, на которых они обучаются. В 2023 году Яндекс представил Yambda — открытый датасет на основе обезличенных данных Яндекс Музыки, и с тех пор он вошел в число самых скачиваемых в мире, сравнявшись по популярности с наборами данных от Amazon и Netflix. Yambda (название образовано от Yandex Music Lambda) — это крупный датасет, содержащий: Датасет структурирован для удобства обучения моделей collaborative filtering, content-based рекомендаций и гибридных подходов. Большинство крупных компаний (Spotify, YouTube, TikTok) не публикуют свои данные, что затрудняет исследования в области рекомендательных систем. Yambda заполнил эту нишу, предложив реальные, а не синтетические данные. В отличие от узкоспециализированных датасетов, Yambda охватывает: Это делает его универсальным инструментом для тестирования алгоритмов. Датасет активно ис
Yambda от Яндекса: как открытый датасет стал мировым стандартом для рекомендательных систем
11 июня11 июн
3 мин