Найти в Дзене

Ant Group представила универсальную мультимодальную модель Ming-Flash-Omni 2.0

11 февраля Ant Group официально представила свою новую мультимодальную модель с открытым исходным кодом — Ming-Flash-Omni 2.0. Эта модель объединяет возможности генерации речи, музыки и звуковых эффектов в одной аудиодорожке, что позволяет пользователям управлять параметрами аудио с помощью подсказок на естественном языке. Особенности включают контроль тембра голоса, скорости речи, громкости,

11 февраля Ant Group официально представила свою новую мультимодальную модель с открытым исходным кодом — Ming-Flash-Omni 2.0. Эта модель объединяет возможности генерации речи, музыки и звуковых эффектов в одной аудиодорожке, что позволяет пользователям управлять параметрами аудио с помощью подсказок на естественном языке. Особенности включают контроль тембра голоса, скорости речи, громкости, эмоций и даже диалекта.

Ming-Flash-Omni 2.0 продемонстрировала впечатляющую производительность в публичных тестах, включая текстовое и визуальное восприятие, генерацию речи и редактирование изображений. Она является первой в своем роде моделью для аудиогенерации, которая поддерживает единый аудиофайл с точным контролем всех параметров.

Модель работает на архитектуре Ling-2.0 (MoE, 100B-A6B), оптимизированной для трех направлений: улучшенное зрение, более точный слух и более стабильная генерация. С помощью этой модели разработчики могут создавать мультимодальные приложения с универсальной точкой входа, что значительно снижает сложность и стоимость интеграции различных технологий.

Особое внимание уделено повышению стабильности при редактировании изображений, поддержке настройки освещения, сцен и поз, а также ретуши с визуальной согласованностью. Ming-Flash-Omni 2.0 также поддерживает генерацию аудио в реальном времени и предоставляет возможность клонирования голосов и настроек в zero-shot.

В будущем команда планирует улучшить технологии для временного восприятия видео, редактирования изображений и длительной генерации аудио, а также развивать системы оценки для масштабного коммерческого использования.

Код инференса и веса модели Ming-Flash-Omni 2.0 доступны на Hugging Face и других открытых платформах. Попробовать модель можно через Ling Studio от Ant.

Если статья была полезной — поставьте лайк 👍

Это помогает понять, какие темы вам действительно интересны.

Подписывайтесь на канал, здесь регулярно выходят материалы про автоматизацию и ИИ — и для бизнеса, и для личного пользования.

#MingFlashOmni #AI #АнтГрупп #мультимодальныеМодели #ИскусственныйИнтеллект #гибкостьИВозможности #AIРазработка

Оригинал статьи