Найти в Дзене
DigiNews

OpenMOSS и MOSI представили MOVA: открытую аудиовизуальную модель, создающую синхронизированное покадровое покадровое покадровое генерирование!

MOVA — прорыв в open-source генеративном ИИ: создаёт киноуровневое видео с идеальной синхронизацией звука и изображения, противостоя закрытым системам вроде Sora и Veo. 29 января — команда OpenMOSS совместно со стартапом MOSI официально представила MOVA (MOSS-Video-and-Audio), модель генерации аудиовизуального контента «с начала до конца». MOVA — первая высокопроизводительная открытая модель в Китае, способная к настоящей совместной генерации звука и видео, создавая их одновременно, а не объединяя после генерации. Модель генерирует аудиовизуальные клипы до 8 секунд с разрешением до 720p и демонстрирует производительность уровня индустрии в синхронизации устной речи на нескольких языках и согласовании со звуками окружающей среды. Отличительная черта MOVA — её значение для отрасли. На фоне всё большего закрытия таких систем, как Sora 2 и Veo 3, MOVA применяет подход полной открытости, публикуя веса модели, код обучения, вывода и рецепты донастройки — бросая вызов доминированию проприетар

MOVA — прорыв в open-source генеративном ИИ: создаёт киноуровневое видео с идеальной синхронизацией звука и изображения, противостоя закрытым системам вроде Sora и Veo.

29 января — команда OpenMOSS совместно со стартапом MOSI официально представила MOVA (MOSS-Video-and-Audio), модель генерации аудиовизуального контента «с начала до конца».

MOVA — первая высокопроизводительная открытая модель в Китае, способная к настоящей совместной генерации звука и видео, создавая их одновременно, а не объединяя после генерации. Модель генерирует аудиовизуальные клипы до 8 секунд с разрешением до 720p и демонстрирует производительность уровня индустрии в синхронизации устной речи на нескольких языках и согласовании со звуками окружающей среды.

Отличительная черта MOVA — её значение для отрасли. На фоне всё большего закрытия таких систем, как Sora 2 и Veo 3, MOVA применяет подход полной открытости, публикуя веса модели, код обучения, вывода и рецепты донастройки — бросая вызов доминированию проприетарных технологий генерации аудио-видео.

По производительности MOVA задаёт новую планку для открытых моделей. Её симуляция физических звуков особенно сильна: точно воспроизводятся, например, рёв двигателя внедорожника в пустыне или отголоски выстрелов в городских боях, обеспечивая глубокую согласованность звука и изображения. Качество синхронизации губ на нескольких языках достигает уровня кино, с точно согласованными движениями рта, мимикой и интонацией как в китайской, так и в английской речи. Возможности MOVA по преобразованию текста в видео превосходят несколько передовых закрытых моделей.

Технически MOVA построена на архитектуре Mixture-of-Experts (MoE) с 32 миллиардами параметров и включает гетерогенную двухканальную структуру, двунаправленные модули связи и механизм Aligned RoPE для выравнивания аудио- и видеомодальностей. Трёхэтапная стратегия обучения в сочетании с workflow на основе агентов повышает стабильность генерации и точность следования инструкциям.

На тестах MOVA превосходит конкурентов, таких как LTX-2 и OVI, по ключевым метрикам — включая синхронизацию губ и точность речи. В аренных оценках она набирает ELO-счёт 1113,8, выигрывая более чем в 70% случаев против других моделей. Её полный открытый релиз значительно снижает барьер для внедрения в индустрии.

GitHub: https://github.com/OpenMOSS/MOVA

Страница проекта: https://mosi.cn/models/mova

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи