Исследователи из Пекинского университета и компания по искусственному интеллекту RabbitPre объединились для запуска проекта Open-Sora. Цель проекта заключается в создании улучшенной версии модели Sora от OpenAI, которая преобразует текст в видео. Команда проекта работает с сообществом разработчиков с открытым исходным кодом с целью создать более простую в использовании и масштабируемую модель.
Как сообщает издание South China Morning Post, Sora от OpenAI уже сделала много шума в мире искусственного интеллекта, и этот проект представляет собой последний шаг Китая в гонке по развитию ИИ. Вопрос о том, насколько успешным будет этот проект, остается открытым. Согласно информации на странице проекта на GitHub, Open-Sora уже сделал значительный прогресс, разработав трехкомпонентный фреймворк и представив четыре демонстрационных видеоролика, которые были переработаны и отличаются разрешением, соотношением сторон и продолжительностью от трех до 24 секунд.
Будущие цели проекта включают совершенствование технологии для создания видео с более высоким разрешением, а также улучшение обучения с помощью дополнительных данных и большего количества графических процессоров для повышения вычислительной мощности сервиса. Эти шаги крайне важны для увеличения производительности модели и расширения ее возможностей для создания более подробных и длительных видеороликов.
Внедрение Sora от OpenAI вызвало разнообразные реакции в китайском деловом и технологическом секторах. Некоторые компании стремятся использовать модель Sora для преобразования текста в видео, в то время как другие выражают опасения по поводу конкурентных преимуществ Китая в этой области. Основным тревожным фактором является ужесточение экспортных правил Соединенных Штатов, которые ограничивают продажу высокопроизводительных графических процессоров, таких как у компании Nvidia, базирующимся в Китае предприятиям. Это замедляет развитие технологий искусственного интеллекта в Китайской Народной Республике.
Крупные технологические компании Китая, такие как Tencent AI и Bytedance, также рискнули войти в сферу преобразования текста в видео. Tencent выпустил инструмент с открытым исходным кодом под названием VideoCrafter2, который позволяет генерировать и редактировать видео из текста, хотя пока только ограниченный двухсекундными видеороликами. MagicVideo-V2 от Bytedance объединяет разные модули для создания континуального конвейера генерации видео.