Десятки тысяч людей ежедневно работают с транскрибацией – расшифровывают аудио и переводят его в текст. Я, как журналист и пиарщик знаю не понаслышке, что расшифровка 10 минут аудио или видео в ручном режиме может занять до получаса рабочего времени (все зависит от качества записи, отвлекающих факторов и так далее). Практика показывает, что час записи транскрибируются ручками порядка трех часов. При этом больше года тестил разные сервисы, помогающие облегчить этот труд. Но каждый раз исправление ошибок занимался почти столько же времени, сколько записать всё самому.
Осенью 2023-го обнаружил, что какие-то IT-гении выкатили решение, которое вписалось в мою картину мира и на выходе можно получить действительно качественный текст и сэкономить процентов 80% времени. Как уже упоминал выше, чтобы найти комфортный вариант, я протестировал разные сервисы для расшифровки аудио в текст и в итоге остановился на комфортном для себя (по функционалу, скорости качеству) варианте под названием Speech2