Если ты когда-нибудь собирал «голосовой» процесс для работы — расшифровку звонков, протоколы встреч, поиск по аудио — ты знаешь эту боль. Либо берёшь закрытое speech API и отправляешь туда звук (а потом юристы спрашивают: «а где это хранится и кто это видел?»), либо ставишь открытое решение и миришься с тем, что оно ошибается на самых важных словах. Обычно — фамилиях, цифрах и «давайте не будем это писать в протокол». Cohere выкатили модель распознавания речи Transcribe с открытыми весами, и по цифрам она подбирается к зоне «можно в прод». Заявленная средняя доля ошибок — 5,42%. Это метрика WER: она считает, как часто модель путает, теряет или добавляет слова. Для сравнения — многие привычные решения болтаются выше. Transcribe — это модель автоматического распознавания речи на 2 млрд параметров. Её можно использовать через API Cohere, а можно забрать и крутить у себя: модель лежит в открытом доступе как cohere-transcribe-03-2026. Лицензия — Apache-2.0, то есть без сюрпризов в духе «тол
Модель Cohere для распознавания речи: 5,4% ошибок и можно запускать у себя
6 апреля6 апр
5
3 мин