В пятницу компания Meta представила Movie Gen, свой мультимодальный видеоимидж третьей волны. Он обещает «создавать пользовательские видео и звуки, редактировать существующие видео и превращать ваше личное изображение в уникальное видео», превосходя при этом такие аналогичные модели, как Runway's Gen-3, Kling 1.5 от Kuaishou Technology или Sora от OpenAI.
Meta Movie Gen опирается на предыдущие работы компании, сначала на мультимодальные модели Make-A-Scene, а затем на модели основы изображения Llama. Movie Gen представляет собой набор всех этих моделей - в частности, генерации видео, персонализированной генерации видео, точного редактирования видео и генерации аудио - которые улучшают тонкий контроль создателя. «Мы ожидаем, что эти модели позволят создать различные новые продукты, которые ускорят процесс творчества», - написала компания в своем анонсе.
Для создания видео Movie Gen опирается на 30B-параметрическую модель, которая выводит до 16-секундных клипов, хотя и со скоростью 16 кадров в секунду (fps). «Эти модели могут рассуждать о движении объекта, взаимодействии субъекта и объекта, движении камеры, и они могут обучать правдоподобным движениям для широкого спектра концепций, - говорит Мета, - что делает их самыми современными моделями в своей категории». Используя эту же модель, Movie Gen может создавать персонализированные видеоролики для создателей на основе неподвижных изображений.
Получите Microsoft Office для Windows/Mac за 25 долларов
Meta использует вариант этой модели генерации видео, которая использует как видео, так и текстовые данные для точного редактирования создаваемого контента. Он может вносить как локальные правки, например добавлять, удалять или заменять элементы, так и глобальные, например применять новый кинематографический стиль. Для создания звука Movie Gen использует отдельную модель с 13B-параметрами, которая может создавать до 45 секунд аудио - фоновый шум, звуковые эффекты или инструментальные партитуры - и автоматически синхронизировать его с видео.
Согласно техническому описанию Meta, Movie Gen постоянно выигрывает в A/B-тестах у других современных видео ИИ, включая Gen3, Sora и Kling 1.5, в категории генерации видео. Он также опередил ID-animator в создании персонализированного видео и Pika Labs Sound Gen в создании аудио. Кроме того, он во второй раз обошел Gen3 по возможностям редактирования видео. Судя по демонстрационным видеороликам, которые мы видели, Movie Gen значительно превосходит все существующие бесплатные видеогенераторы.
Компания заявляет, что планирует «тесно сотрудничать с кинематографистами и создателями, чтобы интегрировать их отзывы» в процессе дальнейшего развития этих моделей, но не преминула отметить, что у нее нет намерения вытеснить людей, создающих видео, с помощью искусственного интеллекта. «Мы делимся этими исследованиями, потому что верим в силу этой технологии, помогающей людям выражать себя по-новому и предоставляющей возможности тем, кто иначе не мог бы их получить», - написала компания. «Мы надеемся, что однажды в будущем у каждого будет возможность воплотить свои художественные идеи в жизнь и создавать видео и аудио высокой четкости с помощью Movie Gen».
Если вам понравилась эта статья, подпишитесь на нее, чтобы не пропустить новые полезные статьи!
Вы также можете читать меня в:
- Telegram: https://t.me/gergenshin
- Яндекс Дзен: https://dzen.ru/gergen
- Официальный сайт: https://www-genshin.ru