Hugging Face отметил российский вклад в мировую науку данных На платформе Hugging Face опубликован обзор новых мировых датасетов для машинного обучения, недавно открытых в опенсорс. Среди них — крупнейший рекомендательный датасет Yambda-5B от Яндекса, который уже привлёк внимание исследователей. Главная идея обзора — открытые датасеты двигают вперёд всю индустрию ML. Они позволяют учёным, стартапам и компаниям экспериментировать и развивать новые модели без необходимости собирать собственные массивы данных с нуля. Особое место занял Yambda-5B. Это один из самых масштабных наборов данных для рекомендательных систем. Мировые эксперты признают его значимость. Так, Аман Чадха (AWS GenAI, ранее Stanford AI и Apple) отметил: «Такие датасеты, как Yambda-5B, сокращают разрыв между академическим сообществом и реальной индустрией». Это не только шаг Яндекса в сторону научного сообщества, но и важный вклад в глобальные исследования — ведь именно на основе открытых данных строятся новые алго