Компания ElevenLabs, известная своими продуктами на стыке искусственного интеллекта и работы с голосом, запустила Scribe v2 Realtime — модель, способную преобразовывать речь в текст с рекордной скоростью и точностью. Новинка реагирует практически мгновенно: задержка составляет всего 150 миллисекунд, что делает её пригодной для приложений, где важна каждая секунда — от онлайн-поддержки клиентов до систем синхронного перевода. Модель поддерживает более 90 языков, включая английский, французский, немецкий, итальянский, испанский, португальский, хинди и японский. Разработчики утверждают, что Scribe v2 Realtime уверенно справляется даже с «грязным» звуком — фоновым шумом, акцентами, сбивчивой речью. В демонстрационном ролике ElevenLabs показала, как система безошибочно распознаёт заказ с номером отслеживания, продиктированный в шумной обстановке, тогда как другие модели допускают неточности. Этот пример показывает, что акцент сделан на реальных сценариях, от колл-центров до живых голосовых
ElevenLabs вывела распознавание речи на новый уровень с моделью Scribe v2 Realtime
12 ноября 202512 ноя 2025
2 мин