1900 подписчиков

Ant Group представила в открытом доступе мультимодальную модель Ming-Flash-Omni 2.0

11 февраля11 фев

3 мин

Ant Group выпустила Ming-Flash-Omni 2.0 — унифицированную мультимодальную модель с открытым кодом. Она генерирует речь, музыку и звуковые эффекты в одной дорожке с точным контролем через естественный язык. — pandaily.com 11 февраля — Ant Group официально представила свою полноформатную большую модель Ming-Flash-Omni 2.0 с открытым исходным кодом, которая продемонстрировала высокую производительность по ряду публичных тестов в области понимания текста и изображений, управляемого синтеза речи и генерации и редактирования изображений. По данным компании, Ming-Flash-Omni 2.0 — первая в отрасли унифицированная модель для генерации аудио во всех сценариях, способная создавать речь, звуковые эффекты окружающей среды и музыку в рамках одной аудиодорожки. Пользователи могут использовать подсказки на естественном языке для точного управления тембром голоса, скоростью речи, тоном, громкостью, эмоциями и диалектом. При инференсе модель достигает сверхнизкой частоты кадров 3,1 Гц, обеспечивая в реа

11 февраля — Ant Group официально представила свою полноформатную большую модель Ming-Flash-Omni 2.0 с открытым исходным кодом, которая продемонстрировала высокую производительность по ряду публичных тестов в области понимания текста и изображений, управляемого синтеза речи и генерации и редактирования изображений.

По данным компании, Ming-Flash-Omni 2.0 — первая в отрасли унифицированная модель для генерации аудио во всех сценариях, способная создавать речь, звуковые эффекты окружающей среды и музыку в рамках одной аудиодорожки. Пользователи могут использовать подсказки на естественном языке для точного управления тембром голоса, скоростью речи, тоном, громкостью, эмоциями и диалектом.

При инференсе модель достигает сверхнизкой частоты кадров 3,1 Гц, обеспечивая в реальном времени высококачественную генерацию аудио продолжительностью до минуты, сохраняя при этом лидирующую эффективность и экономичность.

Отраслевые наблюдатели полагают, что мультимодальные модели в конечном итоге сойдутся к унифицированным архитектурам, которые позволят глубже координировать различные модальности и задачи. Однако так называемые «полноформатные» системы часто испытывают трудности с балансом между обобщением и специализацией, а модели с открытым исходным кодом, как правило, уступают специализированным аналогам в нишевых областях.

Ant Group годами инвестировала в исследования в области полноформатного ИИ. Серия Ming-Omni развивалась прогрессивно: ранние версии заложили унифицированную мультимодальную основу, итерации среднего этапа подтвердили преимущества масштабирования, а последняя версия 2.0 использует более крупные наборы данных и систематические оптимизации обучения для вывода полноформатного понимания и генерации на ведущий уровень среди моделей с открытым исходным кодом, превосходя в некоторых областях лучшие специализированные модели.

Выпуская Ming-Flash-Omni 2.0 с открытым исходным кодом, Ant предоставляет свои основные возможности в качестве многоразовой основы, предлагая разработчикам унифицированную точку входа для сквозной разработки мультимодальных приложений.

Модель построена на архитектуре Ling-2.0 (MoE, 100B-A6B) и оптимизирована по трем направлениям: более четкое зрение, более тонкий слух и более стабильная генерация.

Зрение: включает сотни миллионов мелкозернистых образцов данных и стратегии обучения на сложных случаях, значительно улучшая распознавание близкородственных видов, детали сложного ремесла и редких культурных артефактов.
Аудио: обеспечивает унифицированную генерацию речи, звуковых эффектов и музыки в одной дорожке, поддерживает мелкозернистое управление параметрами голоса на естественном языке и предлагает клонирование голоса и настройку в режиме zero-shot.
Изображение: повышает стабильность при выполнении сложных задач редактирования, поддерживая настройку освещения, замену сцены, оптимизацию позы и ретушь в один клик, сохраняя при этом визуальную согласованность в динамических сценариях.

Чжоу Цзюнь, руководитель команды Ling, заявил, что суть полноформатной технологии заключается в достижении глубокой интеграции и эффективной оркестровки мультимодальных возможностей через унифицированную архитектуру. После выпуска с открытым исходным кодом разработчики могут повторно использовать возможности зрения, речи и генерации в рамках единой системы, значительно снижая сложность и стоимость объединения нескольких моделей.

В будущем команда планирует дальнейшее улучшение временного понимания видео, сложного редактирования изображений и генерации длительного аудио в реальном времени, а также совершенствование инструментов и систем оценки для ускорения крупномасштабного коммерческого развертывания.

Веса модели и код инференса для Ming-Flash-Omni 2.0 теперь доступны на Hugging Face и других платформах с открытым исходным кодом. Пользователи также могут протестировать модель через платформу Ling Studio от Ant.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Pandaily

Оригинал статьи

Электроника

81,9 тыс интересуются