В пятницу компания Meta представила Movie Gen, свой мультимодальный видеоимидж третьей волны. Он обещает «создавать пользовательские видео и звуки, редактировать существующие видео и превращать ваше личное изображение в уникальное видео», превосходя при этом такие аналогичные модели, как Runway's Gen-3, Kling 1.5 от Kuaishou Technology или Sora от OpenAI. Meta Movie Gen опирается на предыдущие работы компании, сначала на мультимодальные модели Make-A-Scene, а затем на модели основы изображения Llama. Movie Gen представляет собой набор всех этих моделей - в частности, генерации видео, персонализированной генерации видео, точного редактирования видео и генерации аудио - которые улучшают тонкий контроль создателя. «Мы ожидаем, что эти модели позволят создать различные новые продукты, которые ускорят процесс творчества», - написала компания в своем анонсе. Для создания видео Movie Gen опирается на 30B-параметрическую модель, которая выводит до 16-секундных клипов, хотя и со скоростью 16 к