Найти в Дзене
РР-Новости

Sora: новая нейросеть для генерации видео по текстовому описанию

Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая способна создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты. Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения. Генерация видеоконтента по текстовому описанию (text-to-video) — возникшее сравнительно недавно стремительно развивающееся направление машинного обучения, которое стало логическим продолжением исследований в области генерации изображений. Существенный прогресс в этом направлении начался в течение последних двух лет. Несмотря на определенные успехи, качество генерации до последнего времени оставалось довольно низким. 15 февраля 2024 года компания OpenAI представила собственную text-to-video модель под названием Sora. Это диффузионная генеративная модель, кото

Компания OpenAI представила новую диффузионную генеративную модель машинного обучения под названием Sora, которая способна создавать по текстовому описанию видео высокого качества с малым количеством артефактов, разрешением до 1920×1080 и продолжительностью до одной минуты.

Помимо этого, Sora может дополнять новыми кадрами уже существующие видеофрагменты, а также создавать новые и анимировать уже существующие статичные изображения.

Генерация видеоконтента по текстовому описанию (text-to-video) — возникшее сравнительно недавно стремительно развивающееся направление машинного обучения, которое стало логическим продолжением исследований в области генерации изображений. Существенный прогресс в этом направлении начался в течение последних двух лет. Несмотря на определенные успехи, качество генерации до последнего времени оставалось довольно низким.

15 февраля 2024 года компания OpenAI представила собственную text-to-video модель под названием Sora. Это диффузионная генеративная модель, которая создает видео по его текстовому описанию, начиная процесс со случайного шума и постепенно преобразуя его в изображение.

Подобно другим GPT моделям, Sora использует архитектуру трансформера. Только вместо токенов, базовых блоков текста, используемых в языковых моделях, визуальная информация в Sora разбивается на их аналоги — пространственно-временные патчи, или другими словами, на фрагменты, которые содержат в себе информацию о части кадра и о том, как эта часть изменяется со временем.

Модель получает на вход зашумленные патчи вместе с текстовыми описаниями визуального контента, после чего пытается предсказать выходные патчи, которые бы соответствовали описанию. Входные данные на первом шаге сжимаются — видеоизображение преобразуется в низкоразмерное латентное (скрытое) пространство. Затем из них извлекается последовательность пространственно-временных патчей. На выходе сгенерированные моделью данные преобразуется обратно в пространство пикселей с помощью декодера.

Такой подход позволяет проводить обучение модели на видео с переменным разрешением и продолжительностью, а также контролировать разрешение генерируемого видео на выходе. Его диапазон может составлять от 1920×1080p до 1080×1920. Продолжительность генерируемых моделью видеороликов составляет 60 секунд.

Помимо полностью нового контента, получаемого по текстовым описаниям, Sora также может вносить изменения в уже существующие видеоролики, дополнять их новыми кадрами, менять направление воспроизведения и соединять между собой. Кроме этого, Sora может генерировать статичные изображения разрешением до 2048×2048 пикселей, или превращать уже готовые картинки в анимацию.

В техническом отчете OpenAI отмечает, что модель оказалась способна правильно визуализировать людей и объекты с учетом их физических характеристик. Кроме этого, сгенерированные видео демонстрируют 3D-консистентность — изображение в них сохраняет правильную перспективу, а объекты согласованно перемещаются в пространстве сцены относительно движущейся камеры, хотя модель этому никак явно не обучалась. Также в сгенерированном видео удается поддерживать временную согласованность — модель запоминает и сохраняет внешний вид персонажей и объектов, которые на время выпадают из поля зрения, а затем вновь появляются.

]]>