Сегодня компания Stability AI расширяет свой портфель моделей генеративного ИИ, выпустив Stable Video 3D (SV3D).
Как следует из названия, новая модель представляет собой видеоинструмент с искусственным интеллектом для рендеринга 3D-видео. Компания Stability AI разрабатывает видеовозможности с помощью технологии Stable Video, которая позволяет пользователям создавать короткие видео из изображения или текстовой подсказки. SV3D основан на предыдущей модели Stable Video Diffusion от Stability AI, адаптируя ее для задач синтеза новых изображений и генерации 3D.
С помощью SV3D компания Stability AI добавляет новую глубину в свою модель генерации видео с возможностью создавать и преобразовывать многоракурсные 3D-сетки из одного входного изображения.
SV3D теперь доступен для коммерческого использования с профессиональным членством Stability AI (20 долларов в месяц для создателей и разработчиков с годовым доходом менее 1 миллиона долларов). В некоммерческих целях пользователи могут загрузить вес модели с сайта Hugging Face.
Создание игр, электронная коммерция названы в качестве целевых вариантов использования
«Адаптируя нашу модель диффузии изображения в видео Stable Video Diffusion с добавлением кондиционирования траектории камеры, Stable Video 3D может генерировать многоракурсные видео объекта», — написала компания в своем блоге, подробно описав новую модель.
«Stable Video 3D является ценным инструментом для создания 3D-активов, особенно в игровом секторе», — сказал Варун Джампани, ведущий исследователь Stability AI. «Кроме того, он позволяет создавать 360-градусные орбитальные видео, которые полезны в электронной коммерции, обеспечивая более захватывающий и интерактивный опыт покупок».
От стабильной Zero123 до SV3D
Stability AI, пожалуй, наиболее известна своими моделями искусственного интеллекта Stable Diffusion, которые включают SDXL и Stable Diffusion 3.0, последняя все еще находится на ранней стадии исследования. Stable Diffusion 1.5 — это модель генерации изображений с открытым исходным кодом, которая лежит в основе многих других продуктов для генерации изображений и видео с помощью ИИ, включая Runway и Leonardo AI.
Еще в декабре 2023 года была выпущена модель Stable Zero123, предлагающая новые возможности для построения 3D-изображений. В то время Эмад Мостак, основатель и генеральный директор Stability AI, сказал VentureBeat, что Stable Zero123 станет первой из серии 3D-моделей.
Технология SV3D использует другой подход к генерации 3D, чем Stable Zero123.
«Stable Video 3D можно рассматривать как преемника и как улучшение нашего предыдущего предложения Stable Zero123», — сказал Джампани. «Stable Video 3D — это сеть синтеза нового вида, которая принимает одно изображение в качестве входных данных и выводит изображения нового вида.
Джампани объяснил, что Stable Zero123 основан на Stable Diffusion и выводит по одному изображению за раз. Stable Video 3D основан на моделях Stable Video Diffusion и выводит несколько новых ракурсов одновременно. Stable Video 3D обеспечивает гораздо более высокое качество новых видов и, таким образом, может помочь в создании более качественных 3D-сеток из одного изображения.
Согласованные виды под любым углом
В исследовательской работе исследователи Stability AI подробно описывают некоторые методы, используемые для создания 3D из одного изображения с использованием скрытой диффузии видеосигнала.
«Недавняя работа по 3D-генерации предлагает методы адаптации 2D-генеративных моделей для синтеза новых представлений (NVS) и 3D-оптимизации», — говорится в отчете. «Однако эти методы имеют ряд недостатков из-за ограниченного количества просмотров или несогласованности NVS, что влияет на производительность генерации 3D-объектов».
Одно из ключевых преимуществ SV3D заключается в его способности генерировать согласованные новые многоракурсные изображения объекта. По данным Stability AI, SV3D обеспечивает согласованное изображение под любым углом.
В исследовательской работе по SV3D подчеркивается это достижение, отмечая, что «. ... В отличие от предыдущих подходов, которые часто имеют дело с ограниченными перспективами и несоответствиями в выходных данных, Stable Video 3D способен обеспечить согласованное изображение под любым заданным углом с умелым обобщением».
В дополнение к новым возможностям синтеза видов, SV3D также нацелен на оптимизацию 3D-сеток. Используя свою многоракурсную согласованность, SV3D может генерировать высококачественные 3D-сетки непосредственно из новых видов, которые он создает.
«Stable Video 3D использует свою многоракурсную согласованность для оптимизации 3D-нейронных полей излучения (NeRF) и сетчатых представлений для улучшения качества 3D-сеток, генерируемых непосредственно из новых видов», — говорится в сообщении Stability AI.
Два мощных варианта: SV3D_u и SV3D_p
SV3D выпускается в двух вариантах, каждый из которых предназначен для конкретных сценариев использования.
SV3D_u генерирует орбитальные видео на основе входных данных одного изображения без необходимости подготовки камеры. Обусловливание камеры в генеративном ИИ относится к методу, при котором дополнительные входные данные, часто в виде изображения или набора параметров, связанных с перспективой или положением камеры, используются для управления процессом создания новых изображений или контента.
С другой стороны, SV3D_p расширяет эту возможность, вмещая как одиночные изображения, так и орбитальные виды, позволяя пользователям создавать 3D-видео вдоль заданных траекторий камеры.