Перевод статьи от исследовательского центра OpenAI
Модели генерации видео как симуляторы мира
Мы исследуем масштабное обучение генеративных моделей на видеоданных. В частности, мы совместно обучаем модели условного распространения текста на видео и изображениях различной продолжительности, разрешения и соотношения сторон.
Мы используем архитектуру преобразователя, которая работает с пространственно-временными фрагментами скрытых кодов видео и изображений. Наша самая крупная модель Sora способна генерировать минутное видео высокого качества. Наши результаты показывают, что масштабирование моделей генерации видео является многообещающим путем к созданию универсальных симуляторов физического мира.
Больше ресурсов
В этом техническом отчете основное внимание уделяется методу преобразования визуальных данных всех типов в единое представление, позволяющее крупномасштабное обучение генеративных моделей, и качественной оценке возможностей и ограничений Sora. Подробности модели и реализации не включены в этот отчет.
Многие предыдущие работы изучали генеративное моделирование видеоданных с использованием различных методов, включая рекуррентные сети,1 ,2 ,3 генеративно-состязательные сети, 4 ,5 ,6 ,7 авторегрессионные преобразователи,8 ,9 и диффузионные модели.10 ,11 ,12 Эти работы часто фокусируются на узкой категории визуальных данных, на более коротких видеороликах или видеороликах фиксированного размера.
Sora — это универсальная модель визуальных данных: она может генерировать видео и изображения различной длительности, соотношения сторон и разрешения, вплоть до полной минуты видео высокой четкости.
Превращение визуальных данных в патчи
Мы черпаем вдохновение из больших языковых моделей, которые приобретают универсальные возможности путем обучения на данных в масштабе Интернета.13 ,14Успех парадигмы LLM частично обеспечивается использованием токенов, которые элегантно объединяют различные модальности текста — код, математику и различные естественные языки. В этой работе мы рассматриваем, как генеративные модели визуальных данных могут унаследовать такие преимущества. В то время как у LLM есть текстовые токены, у Sora есть визуальные патчи . Ранее было показано, что патчи являются эффективным представлением моделей визуальных данных.15 ,16 ,17,18
Мы обнаружили, что патчи представляют собой хорошо масштабируемое и эффективное средство обучения генеративных моделей на различных типах видео и изображений
На высоком уровне мы превращаем видео в патчи, сначала сжимая видео в скрытое пространство более низкого измерения. 19 и последующее разложение представления на фрагменты пространства-времени.
Сеть сжатия видео
Мы обучаем сеть, уменьшающую размерность визуальных данных. 20 Эта сеть принимает необработанное видео в качестве входных данных и выводит скрытое представление, сжатое как во времени, так и в пространстве. Сора обучается и впоследствии генерирует видео в этом сжатом скрытом пространстве. Мы также обучаем соответствующую модель декодера, которая отображает сгенерированные латентные данные обратно в пространство пикселей.
Скрытые патчи пространства-времени
Учитывая сжатое входное видео, мы извлекаем последовательность пространственно-временных патчей, которые действуют как токены преобразователя.
Эта схема работает и для изображений, поскольку изображения — это просто видеоролики с одним кадром. Наше представление на основе патчей позволяет Sora тренироваться на видео и изображениях с переменным разрешением, продолжительностью и соотношением сторон.
Во время вывода мы можем контролировать размер сгенерированных видео, располагая случайно инициализированные патчи в сетке подходящего размера.
Масштабирующие преобразователи для генерации видео
SORA— диффузионная модель. 21 ,22 ,23 ,24 ,25; учитывая входные зашумленные патчи (и обусловливающую информацию, такую как текстовые подсказки), он обучен прогнозировать исходные «чистые» патчи.
Важно отметить, что Сора является диффузионным преобразователем .26 Трансформеры продемонстрировали замечательные свойства масштабирования в различных областях, включая языковое моделирование,13 ,14 компьютерное зрение,15 ,16 ,17 ,18 и создание изображений.27 ,28 ,2921 ,22 ,23 ,24 ,25; учитывая входные зашумленные патчи (и обусловливающую информацию, такую как текстовые подсказки), он обучен прогнозировать исходные «чистые» патчи.
В этой работе мы обнаружили, что диффузионные преобразователи эффективно масштабируются и как видеомодели. Качество выборки заметно улучшается по мере увеличения обучающих вычислений.
Переменная продолжительность, разрешение, соотношение сторон
Предыдущие подходы к созданию изображений и видео обычно изменяли размер, обрезали или обрезали видео до стандартного размера – например, 4-секундных видеороликов с разрешением 256x256. Мы обнаружили, что вместо этого обучение на данных в их исходном размере дает несколько преимуществ.
Гибкость выборки
Sora может просматривать широкоэкранные видео с разрешением 1920x1080p, вертикальные видео с разрешением 1080x1920 и все, что между ними. Это позволяет Sora создавать контент для различных устройств непосредственно с их исходными соотношениями сторон. Это также позволяет нам быстро создавать прототипы контента в меньших размерах, а затем генерировать их в полном разрешении — и все это с использованием одной и той же модели.
Улучшенное кадрирование и композиция.
Эмпирически мы обнаружили, что обучение видео с исходным соотношением сторон улучшает композицию и кадрирование. Мы сравниваем Sora с версией нашей модели, которая обрезает все обучающие видео до квадратных размеров, что является обычной практикой при обучении генеративных моделей. Модель, обученная на квадратных кадрах (слева), иногда создает видеоролики, на которых объект виден лишь частично. Для сравнения, у видео Соры кадрирование улучшено.
Понимание языка
Для обучения систем генерации текста в видео требуется большое количество видеороликов с соответствующими текстовыми подписями. Мы применяем технику повторного субтитров, представленную в DALL·E 3. 30к видео. Сначала мы обучаем высокоописательную модель субтитров, а затем используем ее для создания текстовых подписей для всех видео в нашем обучающем наборе. Мы обнаружили, что обучение использованию информативных подписей к видео улучшает точность текста, а также общее качество видео.
Как и в DALL·E 3, мы также используем GPT для преобразования коротких запросов пользователя в более длинные подробные подписи, которые отправляются в видеомодель. Это позволяет Sora создавать высококачественные видеоролики, точно соответствующие подсказкам пользователя.
Подсказки с изображениями и видео
Все результаты выше и на нашей целевой странице демонстрируют примеры преобразования текста в видео. Но Соре также можно предложить другие входные данные, например уже существующие изображения или видео. Эта возможность позволяет Sora выполнять широкий спектр задач по редактированию изображений и видео — создавать идеально цикличное видео, анимировать статические изображения, продлевать видео вперед или назад во времени и т. д.
Анимация изображений DALL·E
Sora способна генерировать видео, предоставляя изображение и подсказку в качестве входных данных. Ниже мы показываем примеры видеороликов, созданных на базе DALL·E 2.31и ДАЛЛ·Е 330изображений.
Собака породы сиба-ину в берете и черной водолазке.
Монстр Иллюстрация в стиле плоского дизайна разнообразного семейства монстров. В группу входят пушистый коричневый монстр, гладкий черный монстр с усиками, пятнистый зеленый монстр и крошечный монстр в горошек, и все они взаимодействуют в игровой среде.
Изображение реалистичного облака с надписью «СОРА».
В богато украшенном историческом зале достигает пика и начинает падать огромная приливная волна. Два серфера, воспользовавшись моментом, умело лавируют по поверхности волны.
Расширение созданных видео
Сора также способна продлевать видео вперед или назад во времени. Ниже приведены четыре видеоролика, которые были продлены назад во времени, начиная с сегмента сгенерированного видео. В результате каждое из четырех видео начинается по-другому, но все четыре видео ведут к одному и тому же финалу.
Мы можем использовать этот метод для продления видео как вперед, так и назад, чтобы создать бесшовный бесконечный цикл.
Редактирование видео в видео
Модели распространения предоставили множество методов редактирования изображений и видео из текстовых подсказок. Ниже мы применяем один из этих методов, SDEdit,32к Соре. Этот метод позволяет Соре трансформировать стили и среду входного видео с нуля.
Подключение видео
Мы также можем использовать Sora для постепенной интерполяции между двумя входными видео, создавая плавные переходы между видео с совершенно разными сюжетами и композициями сцен.
Возможности создания изображений
Sora is also capable of generating images. We do this by arranging patches of Gaussian noise in a spatial grid with a temporal extent of one frame. The model can generate images of variable sizes—up to 2048x2048 resolution.
Новые возможности моделирования
Мы обнаружили, что видео модели демонстрируют ряд интересных новых возможностей при масштабном обучении. Эти возможности позволяют Соре моделировать некоторые аспекты людей, животных и окружающей среды из физического мира. Эти свойства возникают без каких-либо явных индуктивных отклонений для трехмерных объектов, объектов и т. д. — это чисто масштабные явления.
3D-консистенция. Sora может создавать видео с динамическим движением камеры. Когда камера сдвигается и вращается, люди и элементы сцены последовательно перемещаются в трехмерном пространстве.
Дальняя когерентность и постоянство объекта. Серьезной проблемой для систем генерации видео является поддержание временной согласованности при выборке длинных видеороликов. Мы обнаружили, что Сора часто, хотя и не всегда, способен эффективно моделировать как краткосрочные, так и долгосрочные зависимости. Например, наша модель может сохранять людей, животных и объекты, даже когда они перекрыты или выходят за пределы кадра. Аналогично, он может генерировать несколько кадров одного и того же персонажа в одном образце, сохраняя их внешний вид на протяжении всего видео.
Взаимодействие с миром. Иногда Сора может простыми способами имитировать действия, влияющие на состояние мира. Например, художник может оставить на холсте новые мазки, которые сохранятся со временем, или мужчина может съесть гамбургер и оставить следы от укусов.
Моделирование цифровых миров. Сора также способен моделировать искусственные процессы — одним из примеров являются видеоигры. Сора может одновременно управлять игроком в Minecraft с помощью базовой политики, а также отображать мир и его динамику с высокой точностью. Эти возможности можно реализовать с нуля, предложив Соре подписи с упоминанием «Minecraft».
Эти возможности позволяют предположить, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке высокофункциональных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые живут в них.
Обсуждение
В настоящее время Сора как симулятор имеет множество ограничений. Например, он неточно моделирует физику многих основных взаимодействий, таких как разбитие стекла. Другие взаимодействия, например употребление пищи, не всегда приводят к правильным изменениям состояния объекта. На нашей целевой странице мы перечисляем другие распространенные способы отказа модели, такие как некогерентность, возникающая при длительных выборках или спонтанное появление объектов .
Мы считаем, что возможности Sora сегодня демонстрируют, что дальнейшее масштабирование видеомоделей является многообещающим путем к разработке эффективных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые живут в них.
Примеры генераций на этой странице
Рекомендации и литература
- Шривастава, Нитиш, Эльман Мансимов и Руслан Салахудинов. «Неконтролируемое изучение видеопредставлений с использованием lstms». Международная конференция по машинному обучению. ПМЛР, 2015. ↩︎
- Чьяппа, Сильвия и др. «Рекуррентные симуляторы среды». Препринт arXiv arXiv:1704.02254 (2017). ↩︎
- Ха, Дэвид и Юрген Шмидхубер. «Модели мира». Препринт arXiv arXiv:1803.10122 (2018). ↩︎
- Вондрик, Карл, Хамед Пирсиаваш и Антонио Торральба. «Создание видео с динамикой сцены». Достижения в области нейронных систем обработки информации 29 (2016). ↩︎
- Туляков Сергей и др. «Мокоган: Разложение движения и контента для создания видео». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018. ↩︎
- Кларк, Эйдан, Джефф Донахью и Карен Симоньян. «Генерация состязательного видео на сложных наборах данных». Препринт arXiv arXiv:1907.06571 (2019). ↩︎
- Брукс, Тим и др. «Создание длинных видеороликов с динамическими сценами». Достижения в области нейронных систем обработки информации 35 (2022): 31769-31781. ↩︎
- Ян, Уилсон и др. «Videogpt: Генерация видео с использованием vq-vae и преобразователей». Препринт arXiv arXiv:2104.10157 (2021). ↩︎
- Ву, Чэнфэй и др. «Нюва: предварительная тренировка визуального синтеза для создания нейронного визуального мира». Европейская конференция по компьютерному зрению. Чам: Springer Nature Switzerland, 2022. ↩︎
- Хо, Джонатан и др. «Изображение видео: создание видео высокой четкости с использованием диффузионных моделей». Препринт arXiv arXiv:2210.02303 (2022 г.). ↩︎
- Блаттманн, Андреас и др. «Выровняйте свои скрытые возможности: синтез видео высокого разрешения с моделями скрытой диффузии». Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов. 2023. ↩︎
- Гупта, Агрим и др. «Фотореалистичное создание видео с помощью диффузных моделей». Препринт arXiv arXiv:2312.06662 (2023 г.). ↩︎
- Ромбах, Робин и др. «Синтез изображений высокого разрешения с использованием моделей скрытой диффузии». Материалы конференции IEEE/CVF по компьютерному зрению и распознаванию образов . 2022. ↩︎
- Кингма, Дидерик П. и Макс Веллинг. «Автокодирование вариационного Байеса». Препринт arXiv arXiv:1312.6114 (2013). ↩︎
- Золь-Дикштейн, Яша и др. «Глубокое обучение без учителя с использованием неравновесной термодинамики». Международная конференция по машинному обучению . ПМЛР, 2015. ↩︎
- Хо, Джонатан, Аджай Джейн и Питер Аббил. «Вероятностные модели диффузии с шумоподавлением». Достижения в области нейронных систем обработки информации 33 (2020): 6840-6851. ↩︎
- Никол, Александр Куинн и Прафулла Дхаривал. «Улучшенные вероятностные модели диффузии с шумоподавлением». Международная конференция по машинному обучению . ПМЛР, 2021. ↩︎
- Дхаривал, Прафулла и Александр Куинн Никол. «Модели диффузии превосходят GAN в синтезе изображений». Достижения в области нейронных систем обработки информации . 2021. ↩︎
- Каррас, Теро и др. «Выяснение пространства проектирования генеративных моделей, основанных на диффузии». Достижения в области нейронных систем обработки информации 35 (2022): 26565-26577. ↩︎
- Пиблз, Уильям и Сайнинг Се. «Масштабируемые диффузионные модели с трансформаторами». Материалы Международной конференции IEEE/CVF по компьютерному зрению . 2023. ↩︎
- Чен, Марк и др. «Генеративная предварительная подготовка из пикселей». Международная конференция по машинному обучению . ПМЛР, 2020. ↩︎
- Рамеш, Адитья и др. «Генерация текста в изображение с нулевым выстрелом». Международная конференция по машинному обучению . ПМЛР, 2021. ↩︎
- Ю, Цзяхуэй и др. «Масштабирование авторегрессионных моделей для преобразования текста в изображение с богатым содержанием». Препринт arXiv arXiv:2206.10789 2.3 (2022): 5. ↩︎
- Рамеш, Адитья и др. «Иерархическая текстово-условная генерация изображений со скрытыми клипами». Препринт arXiv arXiv:2204.06125 1.2 (2022): 3. ↩︎
- Мэн, Ченлин и др. «Sdedit: управляемый синтез и редактирование изображений с помощью стохастических дифференциальных уравнений». Препринт arXiv arXiv:2108.01073 (2021 г.). ↩︎