Microsoft представила три новых ИИ-модели для генерации изображений, синтеза речи и распознавания голоса – MAI-Image-2, MAI-Voice-1 и MAI-Transcribe-1. Система охватывает основные мультимедийные сценарии: от создания визуального контента до полноценного голосового взаимодействия. MAI-Transcribe-1 поддерживает 25 популярных языков и подходит для работы в реальных условиях – она справляется с акцентами, шумом и низким качеством записи. Генератор речи MAI-Voice-1 делает ставку на реалистичность. Он способен воспроизводить интонации, эмоции и особенности голоса. А MAI-Image-2 может создавать фотореалистичные сцены, графику с текстом и точной композицией. Все три решения доступны через платформы Microsoft Foundry и MAI Playground по платной подписке. @Медиа «Комьюнити»
Microsoft выпустила три ИИ-модели для работы с текстом, голосом и изображениями
3 апреля3 апр
2
~1 мин