Компания MiniMax представила Hailuo 02, второе поколение своей модели искусственного интеллекта для видео, со значительными улучшениями как в производительности, так и в цене.
В новой модели используется архитектура под названием Noise-aware Compute Redistribution (NCR), которая, по словам MiniMax, повышает эффективность обучения и вывода в 2,5 раза. Архитектура NCR по-разному обрабатывает длинные видеопоследовательности в зависимости от этапа обучения. На ранних этапах обучения, когда в данные сильно вносится искусственный шум, видео сжимаются настолько, насколько это возможно. Позже, когда обучающие видео становятся более четкими, модель обрабатывает их в полном разрешении.
По сравнению с предыдущей версией, Hailuo 02 имеет в три раза больше параметров и в четыре раза больше обучающих данных, при этом MiniMax также отмечает улучшения в качестве и разнообразии данных. Компания не раскрывает точное количество параметров или размеры набора данных.
Согласно MiniMax, Hailuo 02 демонстрирует явные успехи в обработке сложных подсказок и моделировании физических процессов. Компания утверждает, что в настоящее время это единственная модель, способная точно генерировать сложные сцены, такие как гимнастические упражнения.
Hailuo 02 доступен в трех вариантах: 768p в течение шести секунд, 768p в течение десяти секунд и 1080p в течение шести секунд. Предыдущая модель была ограничена разрешением 720p, шестисекундными видеороликами со скоростью 25 кадров в секунду.
В бенчмарке Artificial Analysis Video Arena, где пользователи оценивают видео с конкурирующих моделей искусственного интеллекта, Hailuo 02 занял второе место в категории "Преобразование изображения в видео". Он сразу же отстал от Bytedance Seedance и опередил широко разрекламированный Google Veo 3. Однако эта версия Veo 3 не поддерживает аудио, что является основной частью ее привлекательности.
С момента запуска демо-версии в августе прошлого года люди создали более 3,7 миллиарда видеороликов, используя платформу Hailuo, по данным MiniMax. Компания описывает его первоначальное внедрение как очень случайное, но говорит, что оно быстро привлекло широкое внимание создателей по всему миру.
Доступ к модели возможен через веб-интерфейс, мобильное приложение или API. Для пользователей API создание шестисекундного видео с разрешением 768p стоит 0,28 доллара, в то время как версия с разрешением 1080p - 0,49 доллара. Для сравнения, создание восьмисекундного видео 1080p с помощью Google Veo 3 может стоить около 3 долларов, в зависимости от плана.
MiniMax заявляет, что работает над повышением скорости генерации, стабильности и добавлением новых функций, помимо текущих опций преобразования текста в видео и изображения в видео. Конкурирующие платформы, такие как Runway, уже предлагают более продвинутые возможности, такие как отслеживание снимков.
Релиз Hailuo 02 является частью "Недели минимакса", пятидневного мероприятия, в ходе которого китайский стартап также представил языковую модель с открытым исходным кодом, MiniMax-M1, с подсчетом параметров и техническим документом. Напротив, технические детали обучающей архитектуры Hailuo 02 остаются нераскрытыми.
Краткие сведения
- Компания MiniMax представила свою модель искусственного интеллекта Hailuo 02, которая использует специальную архитектуру для повышения эффективности обучения и логического вывода в 2,5 раза и реализует сложные подсказки и физические процессы лучше, чем ее предшественник.
- Модель доступна в трех вариантах с разрешением до 1080p и продолжительностью видео шесть секунд; пользователи сгенерировали более 3,7 миллиарда видеороликов с момента выхода на рынок. По отзывам пользователей, Hailuo 02 работает лучше, чем Google Veo 3.
- Hailuo 02 доступен через Интернет, приложения и API и стоит 0,49 доллара США за шесть секунд видео 1080p — значительно дешевле, чем некоторые конкурирующие предложения.
- Попровать сгенерировать видео можно в сервисе Luma KolerskyAI, а KolerskyMP умеет создавать видеообложки для озон и вб автоматически