382 подписчика

Grok Imagine Video 1.5: генерация реалистичного видео со встроенным звуком за один шаг

4 июня4 июн

3 мин

Новая нейросеть Grok Imagine Video 1.5 от компании xAI Илона Маска вышла официально и возглавила независимый слепой тест LMSYS Video Arena в категории анимации картинок, обойдя других лидеров рынка. Главная фишка обновления — генерация видео со встроенным синхронным звуком за один проход. 📽️

Что умеет новая модель

💥 Генерация звука вместе с видео. Больше не нужно использовать сторонние сервисы

Что умеет новая модель

💥 Генерация звука вместе с видео. Больше не нужно использовать сторонние сервисы

Что умеет новая модель

💥 Генерация звука вместе с видео. Больше не нужно использовать сторонние сервисы для озвучки. Если человек в кадре говорит, движение губ идеально совпадает с речью. Шаги, шум дождя, фоновая музыка или шуршание листьев прописываются автоматически и попадают точно в тайминг происходящего на экране.

💥 Улучшенная физика движений. Модель работает на движке Aurora, который просчитывает кадры последовательно от первого к последнего. За счет этого картинка не разваливается, нейросеть отлично справляется со сложными текстурами вроде отражений в стеклах, движением воды, пара или дыма. Хорошо передаются микромимика лиц, направление взгляда и мелкая моторика рук.

💥 Продление роликов. Можно взять финальный кадр уже созданного видео и текстом прописать, что должно происходить дальше. Картинка на стыке не теряет качество, стиль и внешность персонажей сохраняются. Это позволяет собирать длинные последовательные сюжеты без резких склеек.

💥 Умное редактирование. Встроенный инструмент инпейнтинга позволяет выделять фрагмент готового ролика и менять объекты с помощью текстовых команд — например, переодеть персонажа или заменить предмет в его руках.

Технические параметры

Длительность роликов составляет от 5 до 15 секунд. Частота кадров фиксированная — 24 кадра в секунду. Модель поддерживает любые форматы: горизонтальный 16:9, вертикальный 9:16 для мобильного контента, квадрат 1:1, а также форматы 4:3, 3:4, 2:3 и 3:2. Разрешение можно выбрать из двух вариантов: 480p для быстрых набросков и тестов или 720p для финального результата. Скорость генерации занимает от 5 до 30 секунд. Основной упор сделан на работу с готовыми изображениями (Image-to-Video), так как в этом режиме нейросеть точнее всего считывает геометрию и детали. ⚙️

Где тестировать модель

📍 Официальный сайт xAI. Видеогенератор доступен в веб-версии и в мобильном приложении на сайте grok.com в левом меню во вкладке Imagine. Там появилась отдельная кнопка Video. Бесплатным аккаунтам выдают по 5 базовых кредитов в день, владельцы подписки SuperGrok получают повышенные лимиты.

📍 Платформа ImagineArt. Модель интегрирована в общий рабочий процесс на сайте imagine.art в разделе видеогенерации. Плюс этого варианта в наличии встроенного редактора, где можно сразу дорабатывать полученный результат. Стоимость составляет 240 внутренних кредитов платформы за одну попытку.

📍 Облачные платформы для разработчиков. Если нужен доступ через API для интеграции в свои проекты или боты, модель добавлена на сайты fal.ai и openrouter.ai. Подписки там нет, оплата идет только за секунды использования. Черновой вариант в разрешении 480p обходится примерно в 0.08 доллара за секунду готового ролика, а чистовой вариант в качестве 720p стоит около 0.14 доллара за секунду. Плюс списывается около 0.01 доллара за загрузку исходной картинки.

Как правильно составлять запросы

Так как модель точнее всего работает в режиме анимации готовых изображений, она берет внешность героя, свет и композицию с исходного файла. В текстовом описании нужно указывать только динамику и звук. 🎬

Рабочая схема для составления текста выглядит так: Действие главного объекта + Движение камеры + Звуки и изменения в окружении.

Например: Девушка оборачивается и смотрит в объектив, на заднем плане проезжает автомобиль. Плавный наезд камеры, крупный план. На фоне слышны приглушенный шум мотора и городской гул. Сложнее всего нейросети даются резкие смены ракурса в одном промпте, поэтому движение камеры лучше делать плавным и линейным. Объекты заднего плана анимируются автоматически, если они логически связаны со сценой. Загружаемое изображение должно быть максимально четким, без размытия, артефактов сжатия и текстовых водяных знаков. Подобный подход гарантирует отсутствие визуального мусора при движении. Разработчики обещают развивать архитектуру, добавляя поддержку более высоких разрешений в ближайших патчах.