16 подписчиков

Исследователи Google разрабатывают новую диффузионную систему ИИ для создания видеороликов

26 января 202426 янв 2024

2 мин

Google LLC представила Lumiere, систему искусственного интеллекта для создания видео, которая, по словам компании, превосходит предыдущие модели в этой области.

Компания Alphabet Inc. описала технологию в исследовательском документе, опубликованном во вторник. По словам Google, Lumiere может создавать пятисекундные ролики с разрешением 1024 на 1024 пикселя. Он может генерировать ролики на основе текстовой подсказки или картинки, предоставленной пользователем, а также изменять существующие кадры.
Lumiere построен на основе двух различных моделей искусственного интеллекта. Первая, названная исследователями Google Space-Time U-Net, создает исходный кадр с низким разрешением в ответ на команду пользователя. Второй ИИ увеличивает разрешение ролика, в результате чего Lumiere выдает на выходе окончательный вид 1024 на 1024 пикселя.

По словам Google, модель Space-Time U-Net, которая генерирует первое видео низкого разрешения, основана на диффузионной архитектуре. Эта конструкция лежит в основе нескольких самых популярных на сегодняшний день генераторов изображений с искусственным интеллектом.
Отличие диффузионных моделей от других нейронных сетей заключается в способе их обучения. В процессе обучения диффузионной модели дается коллекция фотографий с некоторой погрешностью, известной как гауссовский шум. Затем она должна удалить ошибку, чтобы восстановить исходные фотографии, и эта процедура учит ее строить совершенно новые изображения с самого начала.

Исследователи Google построили Space-Time U-Net, используя диффузионную модель с открытым исходным кодом. Они доработали ее, добавив программные компоненты, которые могут снижать или повышать качество изображения. Они также добавили в модель поддержку внимания - подход к машинному обучению, который позволяет нейросетям фильтровать информацию, которую они рассматривают при вынесении суждений, и игнорировать нерелевантные данные.
Space-Time U-Net - не единственная модель ИИ, способная создавать видео. Однако она подходит к этой работе иначе, чем предыдущие нейросети этой категории.

Видео - это последовательность изображений, или кадров, представленных друг за другом. Системы искусственного интеллекта часто создают такие серии кадров в два этапа. Они генерируют первое и последнее изображения в последовательности, а затем остальные кадры.

Space-Time U-Net подходит к этой задаче по-другому. Вместо того чтобы поэтапно создавать кадры ролика, она делает весь ролик за один проход. По словам Google, этот метод позволяет Lumiere создавать видео более высокого качества, чем многие современные нейросети.
Компания проверила возможности системы искусственного интеллекта, создав серию пятисекундных видеороликов на основе 113 различных сигналов. Кроме того, в исследование был включен эталонный набор данных, известный как UCF101. Исследователи обнаружили, что Lumiere показала "самые современные результаты генерации видео" по сравнению с другими нейросетями, созданными для той же цели.

Lumiere может генерировать видеоматериалы на основе текстовых подсказок, а также клипы по образцу загруженного пользователем эталонного изображения. Она также способна редактировать предыдущие клипы. Кроме того, по словам Google, Lumiere может генерировать синемаграфы - анимации, в которых двигаются только некоторые части, а остальные остаются неподвижными.