83 подписчика

Mistral выпустила голосовой ИИ, который обыгрывает ElevenLabs, и отдаёт веса модели в открытый доступ

27 марта27 мар

2 мин

Mistral AI выпустила Voxtral TTS — первую модель синтеза речи из текста с открытыми весами для корпораций. Модель в три раза компактнее конкурентов, генерирует речь в шесть раз быстрее реального времени и работает на любом устройстве без отправки данных третьим лицам, обеспечивая предприятиям полный контроль над технологией. Рынок корпоративного голосового ИИ сейчас переживает настоящую битву. На этой неделе ElevenLabs и IBM объявили о сотрудничестве, Google Cloud расширяет возможности Chirp 3 HD, OpenAI продолжает улучшать синтез речи. И вот Mistral AI вмешалась в игру совершенно неожиданным ходом. На прошлой неделе французский стартап выпустил Voxtral TTS — первую фронтальную модель синтеза речи из текста с открытыми весами, разработанную специально для корпораций. И вот в чём подвох: все конкуренты работают по принципу закрытой платформы с API. Компании берут голос в аренду, они им не владеют. Mistral сделала по-другому — выложила все веса модели в открытый доступ. Бери и скачивай,

Оглавление

Mistral выпустила голосовой ИИ, который обыгрывает ElevenLabs, и отдаёт веса модели в открытый доступ
Модель весит как ноутбук и работает в шесть раз быстрее, чем в реальном времени

Mistral выпустила голосовой ИИ, который обыгрывает ElevenLabs, и отдаёт веса модели в открытый доступ

Mistral AI выпустила Voxtral TTS — первую модель синтеза речи из текста с открытыми весами для корпораций. Модель в три раза компактнее конкурентов, генерирует речь в шесть раз быстрее реального времени и работает на любом устройстве без отправки данных третьим лицам, обеспечивая предприятиям полный контроль над технологией.

Рынок корпоративного голосового ИИ сейчас переживает настоящую битву. На этой неделе ElevenLabs и IBM объявили о сотрудничестве, Google Cloud расширяет возможности Chirp 3 HD, OpenAI продолжает улучшать синтез речи. И вот Mistral AI вмешалась в игру совершенно неожиданным ходом.

На прошлой неделе французский стартап выпустил Voxtral TTS — первую фронтальную модель синтеза речи из текста с открытыми весами, разработанную специально для корпораций. И вот в чём подвох: все конкуренты работают по принципу закрытой платформы с API. Компании берут голос в аренду, они им не владеют. Mistral сделала по-другому — выложила все веса модели в открытый доступ. Бери и скачивай, запускай на своём сервере или даже на смартфоне, и ни один звуковой файл не попадёт к третьим лицам.

Это серьёзная ставка на то, что будущее корпоративного голосового ИИ определится не тем, кто сделает лучший звук, а кем даст компаниям реальный контроль над технологией. Следите за развитием технологий ИИ — подписывайтесь на Telegram-канал ProAi, где мы делимся опытом создания автоматизаций и новостями в мире AI.

Модель весит как ноутбук и работает в шесть раз быстрее, чем в реальном времени

Технические параметры Voxtral TTS выглядят как прямая провокация индустрии. Где конкуренты строят тяжёлые модели, Mistral создала систему примерно в три раза меньше по размеру при сопоставимом качестве.

Архитектура состоит из трёх частей: 3,4-миллиардного трансформера-декодера, 390-миллионного flow-matching трансформера и 300-миллионного нейронного аудиокодека, который Mistral разработала сама. Всё построено на базе Ministral 3B — того же претренированного ядра, что питает модель Voxtral Transcribe.

На практике система выдаёт первый звук за 90 миллисекунд и генерирует речь со скоростью примерно в шесть раз быстрее реального времени. После квантизации требует около трёх гигабайт оперативной памяти. Запустится на любом ноутбуке, смартфоне и даже на старом железе — всё равно будет работать в реальном времени.

Модель поддерживает девять языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский. Может адаптироваться к голосу человека всего лишь за пять секунд записи. И вот что по-настоящему впечатляет — работает кросслингвальная адаптация голоса без явного обучения на этот случай.

Представь: ты даёшь модели 10 секунд своего голоса с французским акцентом, вводишь текст на немецком — и она выдаёт немецкую речь, которая звучит как ты, с твоим акцентом и особенностями голоса. Для международных компаний это означает каскадный перевод речи без потери индивидуальности голоса.

🔔 Чтобы читать больше про нейросети, AI-сервисы и практические кейсы, подписывайся на канал «ProAI» в Telegram!