Нейросеть Sora - это модель диффузии, которая генерирует видео, начиная с того, что выглядит как статический шум, и постепенно преобразует его, удаляя шум за множество шагов.
Она способна генерировать целые видео за один раз или расширять сгенерированные видео, чтобы сделать их длиннее, но на данном этапе
продложительностью до 1 минуты и качеством 1080 Full HD.
Sora использует архитектуру трансформера, что обеспечивает превосходные показатели масштабируемости. Мы представляем видео и изображения как коллекции меньших единиц данных, называемых фрагментами, каждый из которых аналогичен токену в GPT. Как работает нейросеть Sora? Sora опирается на предыдущие исследования в DALL·E и моделях GPT. Она использует технику рекаптирования из DALL·E 3, которая включает в себя генерацию подробных описательных подписей для визуальных данных обучения. В результате модель может следовать текстовым инструкциям пользователя в сгенерированном видео более точно.
Sora может генерировать видео не только