Гарвардский университет представил масштабный проект, который может изменить подход к созданию инструментов искусственного интеллекта. Новый набор данных, включающий почти миллион книг, уже находящихся в общественном достоянии, был разработан в рамках недавно созданной Гарвардской институциональной инициативы данных. Этот проект реализован при финансовой поддержке Microsoft и OpenAI и основан на материалах уже оцифрованных в Google Books. Новинка существенно превосходит по объёму предыдущие известные базы данных, такие как Books3, которые активно использовались для обучения крупных языковых моделей. Новая база включает в себя произведения мировой классики, учебники, редкие словари и многое другое. Такой состав текстов делает её уникальным ресурсом, который открывает доступ к высококачественным данным не только крупным корпорациям, но и небольшим исследовательским коллективам. Грег Лепперт (Greg Leppert), возглавляющий проект, считает, что инициатива станет значительным шагом к демократ
Гарвард открыл нейросетям доступ к своей библиотеке
12 декабря 202412 дек 2024
3
1 мин