Данные в этой коллекции собраны с глубиной от 1 года до 3,5 лет, отмечает пресс-служба Т-технологий
МОСКВА, 26 сентября. /ТАСС/. Исследователи из РФ разработали и опубликовали в открытом доступе один из крупнейших в мире наборов синтетических данных для обучения рекомендательных систем ИИ в области электронной торговли, которая включает анонимизированную информацию о действиях 44 млн уникальных пользователей и их взаимодействиях с 30 млн товаров. Этот набор данных ускорит развитие рекомендательных ИИ-систем в России и мире в целом, сообщила пресс-служба Т-технологий.
"Мы с командой считаем важным вносить вклад в развитие открытых датасетов и моделей для дальнейшего развития рекомендательных систем. Наш датасет может стать одним из новых бенчмарков и принести ценность ИИ-сообществу для улучшения качества персонализации и опыта реальных пользователей", - пояснила руководитель направления рекомендательных систем Т-банка Марина Ананьева, чьи слова приводит пресс-служба Т-технологий.
Как отмечается в сообщении, подготовленный Ананьевой и ее коллегами набор данных решает одну из главных проблем ИИ-сообщества, специализирующегося на разработке рекомендательных систем. Она заключается в том, что большинство существующих наборов для обучения рекомендательных систем устарели и не отражают актуальное поведение пользователей и взаимодействия с современными сервисами и платформами.
Для ликвидации этого пробела российские исследователи собрали один из самых крупных в мире наборов данных, который включает обезличенную информацию о действиях 44 млн уникальных пользователей двух популярных онлайн-сервисов и рекламной платформы одного из крупнейших российских банков, а также данные по 30 млн товаров и более 135 млрд взаимодействий.
Как отмечается в сообщении, данные в этой коллекции собраны с глубиной от года до 3,5 лет, что позволяет анализировать как краткосрочные, так и долгосрочные предпочтения пользователей, динамику их изменения, а также сезонность и тренды. Фактор глубины данных крайне важен для исследований, поскольку позволяет делать корректные разбивки на данные для обучения моделей и дает возможности в разы повышать качество рекомендаций при использовании глубоких нейронных сетей, подытожили ученые.
В новость внесена правка (20:39 мск) - сообщение приводится с уточненными формулировками в первом, третьем и четвертом абзацах.