3808 подписчиков

Расшифровка аудио нейросетью: как искусственный интеллект развязал мне руки и помогает экономить время

8 апреля 20248 апр 2024

2 мин

Десятки тысяч людей ежедневно работают с транскрибацией – расшифровывают аудио и переводят его в текст. Я, как журналист и пиарщик знаю не понаслышке, что расшифровка 10 минут аудио или видео в ручном режиме может занять до получаса рабочего времени (все зависит от качества записи, отвлекающих факторов и так далее). Практика показывает, что час записи транскрибируются ручками порядка трех часов. При этом больше года тестил разные сервисы, помогающие облегчить этот труд. Но каждый раз исправление ошибок занимался почти столько же времени, сколько записать всё самому.

Осенью 2023-го обнаружил, что какие-то IT-гении выкатили решение, которое вписалось в мою картину мира и на выходе можно получить действительно качественный текст и сэкономить процентов 80% времени. Как уже упоминал выше, чтобы найти комфортный вариант, я протестировал разные сервисы для расшифровки аудио в текст и в итоге остановился на комфортном для себя (по функционалу, скорости качеству) варианте под названием Speech2

Практика показывает, что час записи транскрибируются ручками порядка трех часов. При этом больше года тестил разные сервисы, помогающие облегчить этот труд. Но каждый раз исправление ошибок занимался почти столько же времени, сколько записать всё самому.

Осенью 2023-го обнаружил, что какие-то IT-гении выкатили решение, которое вписалось в мою картину мира и на выходе можно получить действительно качественный текст и сэкономить процентов 80% времени.

Как уже упоминал выше, чтобы найти комфортный вариант, я протестировал разные сервисы для расшифровки аудио в текст и в итоге остановился на комфортном для себя (по функционалу, скорости качеству) варианте под названием Speech2Text.

Для задач мне вполне хватает бесплатного тарифа, позволяющего транскрибировать до 15 минут аудио в сутки. Платный вариант стартует от 360 рублей в месяц и позволяет транскрибировать за этот период до 6 часов аудио. При оплате подписки на любой тариф на полгода можно немного сэкономить.

Для сравнения, аналогичный Any2text стоит 5 рублей за минуту расшифровки или 300 рэ за час. Speech2Text за тот же час распознавания просит 60 рублей. Так что при одинаковом качестве разница существенная и, как говорится, зачем платить больше?

Следует отметить, что на обработку файла с 10-минутной записью у нейронки уходит 3 минуты, а на выходе получается отличный отличный текст с минимумом ошибок, знаками препинания, поделенный на абзацы.

В простой и интуитивно понятный интерфейс можно грузить не только аудио, но и видеофайлы. Или вставить ссылку на видео с YouTube, RuTube, ВК, Дзена.

Часовой файл транскрибируется за 10-15 минут. Расшифровка сразу поделена на спикеров, если их несколько. Для удобства спикеров можно переименовать прямо в интерфейсе сервиса. В итоге, скажем, интервью выглядит как настоящий диалог.

Результат распознавания подгружается в личный кабинет и доступен для скачивания в удобном формате.

Кому-то, кстати, может пригодиться формат субтитров. Очень удобно для добавления в свои видео.

Судя по информации на сайте сервиса, помимо меня сервисом пользуются журналисты из Forbes, Фонтанки.ру, Шкулёв Медиа Холдинга (это один из крупнейших медиа-холдингов с 40+ региональными порталами и глянцевыми журналами).

Помимо журналистов сервис наверняка может пригодиться юристам, которым приходится переводить судебные записи в текст, руководителям отделов продаж для расшифровки звонков и контроля менеджеров по продажам, и много кому еще.

В целом, это отличный инструмент для тех, кто нуждается в точном и быстром распознавании речи.

Гаджеты и электроника

5,73 млн интересуются