Найти в Дзене
AI Times

Mistral представила новые модели распознавания речи

Французский ИИ-стартап Mistral выпустил две новые модели преобразования речи в текст, заявив о намерении установить новые стандарты по скорости работы, уровню конфиденциальности и стоимости. Парижская компания представила Voxtral Mini Transcribe V2 и Voxtral Realtime — решения, объединённые под брендом Voxtral Transcribe 2. По утверждению Mistral, новые модели стали серьёзным технологическим шагом вперёд, обеспечивая «качество транскрипции уровня state-of-the-art, продвинутую диаризацию и сверхнизкую задержку». Компания рассчитывает на высокий интерес со стороны корпоративных клиентов, поскольку спектр возможных применений продолжает расширяться — от виртуальных ассистентов и автоматизации колл-центров до субтитрирования эфиров и подготовки документации для соблюдения нормативных требований. Voxtral Realtime ориентирована на обработку аудио в реальном времени. Модель способна выдавать транскрипцию с минимальной задержкой — вплоть до 200 миллисекунд. Это стало возможным благодаря «новой
Оглавление

Французский ИИ-стартап Mistral выпустил две новые модели преобразования речи в текст, заявив о намерении установить новые стандарты по скорости работы, уровню конфиденциальности и стоимости.

Парижская компания представила Voxtral Mini Transcribe V2 и Voxtral Realtime — решения, объединённые под брендом Voxtral Transcribe 2.

По утверждению Mistral, новые модели стали серьёзным технологическим шагом вперёд, обеспечивая «качество транскрипции уровня state-of-the-art, продвинутую диаризацию и сверхнизкую задержку». Компания рассчитывает на высокий интерес со стороны корпоративных клиентов, поскольку спектр возможных применений продолжает расширяться — от виртуальных ассистентов и автоматизации колл-центров до субтитрирования эфиров и подготовки документации для соблюдения нормативных требований.

Две модели — разные задачи

Voxtral Realtime ориентирована на обработку аудио в реальном времени. Модель способна выдавать транскрипцию с минимальной задержкой — вплоть до 200 миллисекунд. Это стало возможным благодаря «новой потоковой архитектуре», которая, по словам разработчиков, превосходит традиционные подходы, адаптирующие офлайн-модели и обрабатывающие звук фрагментами.

Задержка может настраиваться в зависимости от сценария использования. При 2,4 секунды модель подходит для создания субтитров, а при 480 миллисекундах уровень ошибок составляет всего 1–2%, что близко к качеству офлайн-обработки и позволяет применять её в голосовых агентах.

Модель изначально поддерживает 13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский и нидерландский. При этом она содержит всего 4 миллиарда параметров и может работать локально — на смартфонах и ноутбуках. Это особенно важно для сценариев, где критичны конфиденциальность и безопасность данных.

Voxtral Realtime распространяется по открытой лицензии Apache 2.0 через Hugging Face Hub, а также доступна через API по цене $0,006 за минуту обработки.

Ставка на доступность

Вторая модель — Mini Transcribe 2 — предназначена для пакетной обработки заранее записанных аудиофайлов. Она поддерживает расширенную диаризацию с указанием говорящих и временных меток начала и окончания речи, контекстную адаптацию под конкретные темы и отрасли, а также таймкоды для отдельных слов. За один запрос можно обработать запись длительностью до трёх часов. Поддерживаются те же 13 языков.

Однако, по заявлению Mistral, главное конкурентное преимущество Mini Transcribe 2 — это соотношение цены и качества. При уровне ошибки в 4% по бенчмарку FLEURS и стоимости $0,003 за минуту модель, как утверждает компания, предлагает лучшее ценовое предложение среди API для транскрипции.

Потенциальным клиентам предлагается протестировать новинки через Audio Playground в Mistral Studio или в ассистенте Le Chat.

Запуск новых моделей стал очередным шагом в развитии Mistral, которая за последние годы превратилась в ведущего европейского игрока на стремительно растущем рынке ИИ, привлекая значительные инвестиции. В прошлом году компания получила $2 млрд нового финансирования.

С выпуском Voxtral Transcribe 2 Mistral усиливает позиции в сегменте прикладного ИИ, делая ставку не на громкие заявления, а на конкретные параметры — скорость, локальную работу и низкую стоимость. Если заявленные показатели подтвердятся на практике, компания сможет закрепиться не только как европейская альтернатива американским гигантам, но и как серьёзный конкурент в нише речевых технологий, где решающим фактором становится не масштаб модели, а её эффективность и доступность.