26 подписчиков

Модель Cohere для распознавания речи: 5,4% ошибок и можно запускать у себя

6 апреля6 апр

3 мин

Если ты когда-нибудь собирал «голосовой» процесс для работы — расшифровку звонков, протоколы встреч, поиск по аудио — ты знаешь эту боль. Либо берёшь закрытое speech API и отправляешь туда звук (а потом юристы спрашивают: «а где это хранится и кто это видел?»), либо ставишь открытое решение и миришься с тем, что оно ошибается на самых важных словах. Обычно — фамилиях, цифрах и «давайте не будем это писать в протокол». Cohere выкатили модель распознавания речи Transcribe с открытыми весами, и по цифрам она подбирается к зоне «можно в прод». Заявленная средняя доля ошибок — 5,42%. Это метрика WER: она считает, как часто модель путает, теряет или добавляет слова. Для сравнения — многие привычные решения болтаются выше. Transcribe — это модель автоматического распознавания речи на 2 млрд параметров. Её можно использовать через API Cohere, а можно забрать и крутить у себя: модель лежит в открытом доступе как cohere-transcribe-03-2026. Лицензия — Apache-2.0, то есть без сюрпризов в духе «тол

Оглавление

Что вообще выпустили
Почему 5,4% — это не просто красивая цифра
Самое вкусное: можно держать расшифровку у себя

Cohere выкатили модель распознавания речи Transcribe с открытыми весами, и по цифрам она подбирается к зоне «можно в прод». Заявленная средняя доля ошибок — 5,42%. Это метрика WER: она считает, как часто модель путает, теряет или добавляет слова. Для сравнения — многие привычные решения болтаются выше.

Что вообще выпустили

Transcribe — это модель автоматического распознавания речи на 2 млрд параметров. Её можно использовать через API Cohere, а можно забрать и крутить у себя: модель лежит в открытом доступе как cohere-transcribe-03-2026.

Лицензия — Apache-2.0, то есть без сюрпризов в духе «только для исследований» или «в коммерции нельзя». И это важный момент: многие компании хотят «как Whisper, но чтобы сразу можно было официально в бизнесе и без танцев с согласованиями».

Поддерживается 14 языков: английский, французский, немецкий, итальянский, испанский, греческий, нидерландский, польский, португальский, китайский, японский, корейский, вьетнамский и арабский.

Почему 5,4% — это не просто красивая цифра

WER в районе 5% — это уже уровень, где расшифровки перестают выглядеть как «я слушал через стену». Ошибки остаются (идеала нет), но модель чаще попадает в смысл и меньше ломает фразы так, что их нужно чинить вручную.

Cohere прямо говорит, что обучали модель с фокусом на минимизацию ошибок, но так, чтобы она была «готова к производству»: не только точная, но и достаточно быстрая, и не требующая дата-центра размером с небольшую страну.

И тут появляется главный практический бонус.

Самое вкусное: можно держать расшифровку у себя

До недавнего времени выбор был такой. Закрытые API — точнее, но ты гонишь аудио наружу и зависишь от чужих условий, цен и задержек. Открытые модели — можно развернуть внутри компании, но качество и скорость часто уступали.

Transcribe пытается усидеть на обоих стульях: точность как у лидеров и при этом возможность самостоятельного хостинга на локальных GPU. Cohere отдельно подчёркивает, что у модели «управляемый» вычислительный профиль для локального запуска — то есть не обязательно строить ферму ради одной расшифровки планёрок.

Если ты делал автоматизацию, где аудио проходит цепочку «распознать → вытащить смысл → разложить по задачам», ты понимаешь, как раздражает зависимость от внешнего сервиса. Особенно когда встреча идёт, а API вдруг «немного деградировало».

Топ лидерборда — и почему это важно

По публичным сравнениям на Hugging Face ASR leaderboard Transcribe сейчас лидирует со средним WER 5,42%. Для ориентира: Whisper Large v3 показывает 7,44%, ElevenLabs Scribe v2 — 5,83%, Qwen3-ASR-1.7B — 5,76%.

На отдельных наборах данных картина тоже бодрая. Например, на тестах с записями встреч и диалогами — 8,15% WER, на материалах с акцентами — 5,87%; там, правда, лучше оказался Zoom Scribe.

«Топ лидерборда» само по себе не гарантия счастья, но это хороший сигнал: модель не просто «вышла», а уже конкурирует на привычных бенчмарках.

Кому это реально может пригодиться

Самый очевидный сценарий — компании, которые устали гонять аудио через внешние API: колл-центры, продажи, поддержка, внутренние встречи, обучение.

Второй сценарий — команды, которые строят поиск по базе знаний и агентные процессы с аудио на входе. Это когда ИИ сначала слушает запись, потом ищет нужную информацию внутри базы документов, потом формирует ответ. Там задержка и контроль данных решают буквально всё: одно дело — «подождите 20 секунд, пока мы отправим звук в облако», и совсем другое — «всё крутится внутри периметра».

В итоге Transcribe выглядит как редкий зверь: модель, которая одновременно про точность, скорость и «не выносить мозг безопасникам». Знаешь, как нормальный офисный принтер: он не обязательно самый красивый в мире, но ты нажал кнопку — и он печатает, а не устраивает квест на полдня.

Занимаюсь внедрением ИИ для бизнеса. Детали — в телеграме