Ant Group выпустила Ming-Flash-Omni 2.0 — унифицированную мультимодальную модель с открытым кодом. Она генерирует речь, музыку и звуковые эффекты в одной дорожке с точным контролем через естественный язык. — pandaily.com 11 февраля — Ant Group официально представила свою полноформатную большую модель Ming-Flash-Omni 2.0 с открытым исходным кодом, которая продемонстрировала высокую производительность по ряду публичных тестов в области понимания текста и изображений, управляемого синтеза речи и генерации и редактирования изображений. По данным компании, Ming-Flash-Omni 2.0 — первая в отрасли унифицированная модель для генерации аудио во всех сценариях, способная создавать речь, звуковые эффекты окружающей среды и музыку в рамках одной аудиодорожки. Пользователи могут использовать подсказки на естественном языке для точного управления тембром голоса, скоростью речи, тоном, громкостью, эмоциями и диалектом. При инференсе модель достигает сверхнизкой частоты кадров 3,1 Гц, обеспечивая в реа
Ant Group представила в открытом доступе мультимодальную модель Ming-Flash-Omni 2.0
11 февраля11 фев
3
3 мин