Представлен совместный проект RedPajama, нацеленный на создание открытых моделей машинного обучения и сопутствующих исходных данных для тренировки, которые могут использоваться для создания интеллектуальных помощников, конкурирующих c коммерческими продуктами, такими как ChatGPT. Предполагается, что наличие открытых исходных данных и крупных языковых моделей избавит от ограничений независимые команды, занимающихся исследованиями в области машинного обучения, и упростит создание специализированных диалоговых систем. К работе над проектом присоединились таки организации и сообщества, как Together, Ontocord.ai, ETH DS3Lab, Stanford CRFM, Hazy Research и MILA Québec AI Institute. Первым шагом стала публикация набора данных RedPajama-Data-1T для обучения диалоговых моделей, насчитывающего 1.2 триллиона токенов. Набор RedPajama воспроизводит данные из общедоступных источников, использованные компанией Facebook для создания своей модели LLaMA (насчитывает 1.25 триллионов токе
Проект RedPajama развивает открытый набор данных для систем искусственного интеллекта
19 апреля 202319 апр 2023
14
3 мин