9568 подписчиков

Sora: новая нейросеть для генерации видео по текстовому описанию

19 февраля 202419 фев 2024

2 мин

Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая способна создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты.

Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения.

Генерация видеоконтента по текстовому описанию (text-to-video) — возникшее сравнительно недавно стремительно развивающееся направление машинного обучения, которое стало логическим продолжением исследований в области генерации изображений. Существенный прогресс в этом направлении начался в течение последних двух лет. Несмотря на определенные успехи, качество генерации до последнего времени оставалось довольно низким.

15 февраля 2024 года компания OpenAI представила собственную text-to-video модель под названием Sora. Это диффузионная генеративная модель, которая создает видео по его текстовому описанию, начиная процесс со случайного шума и постепенно преобразуя его в изображение.

Подобно другим GPT моделям, Sora использует архитектуру трансформера. Только вместо токенов, базовых блоков текста, используемых в языковых моделях, визуальная информация в Sora разбивается на их аналоги — пространственно-временные патчи, или другими словами, на фрагменты, которые содержат в себе информацию о части кадра и о том, как эта часть изменяется со временем.

Модель получает на вход зашумленные патчи вместе с текстовыми описаниями визуального контента, после чего пытается предсказать выходные патчи, которые бы соответствовали описанию. Входные данные на первом шаге сжимаются — видеоизображение преобразуется в низкоразмерное латентное (скрытое) пространство. Затем из них извлекается последовательность пространственно-временных патчей. На выходе сгенерированные моделью данные преобразуется обратно в пространство пикселей с помощью декодера.

Такой подход позволяет проводить обучение модели на видео с переменным разрешением и продолжительностью, а также контролировать разрешение генерируемого видео на выходе. Его диапазон может составлять от 1920×1080p до 1080×1920. Продолжительность генерируемых моделью видеороликов составляет 60 секунд.

Помимо полностью нового контента, получаемого по текстовым описаниям, Sora также может вносить изменения в уже существующие видеоролики, дополнять их новыми кадрами, менять направление воспроизведения и соединять между собой. Кроме этого, Sora может генерировать статичные изображения разрешением до 2048×2048 пикселей, или превращать уже готовые картинки в анимацию.

В техническом отчете OpenAI отмечает, что модель оказалась способна правильно визуализировать людей и объекты с учетом их физических характеристик. Кроме этого, сгенерированные видео демонстрируют 3D-консистентность — изображение в них сохраняет правильную перспективу, а объекты согласованно перемещаются в пространстве сцены относительно движущейся камеры, хотя модель этому никак явно не обучалась. Также в сгенерированном видео удается поддерживать временную согласованность — модель запоминает и сохраняет внешний вид персонажей и объектов, которые на время выпадают из поля зрения, а затем вновь появляются.

]]>