137 подписчиков

О распознавании длинных аудиофайлов в текст

12 декабря 202212 дек 2022

~1 мин

Удобное решение для распознавания коротких голосовых сообщений есть, а для длинных аудиофайлов (совещания, вебинары)? Я не нашёл. Единственное, что нашёл - скрипт для Yandex SpeechKit. Дополил его под свои нужды, и вуаля: на входе — mp3 любого размера (до 4 часов), на выходе — расшифровка с таймкодами.

Удобное решение для распознавания коротких голосовых сообщений есть, а для длинных аудиофайлов (совещания, вебинары)? Я не нашёл.

Единственное, что нашёл - скрипт для Yandex SpeechKit.

Дополил его под свои нужды, и вуаля: на входе — mp3 любого размера (до 4 часов), на выходе — расшифровка с таймкодами.

Плюсы: работает с минимальным человеческим участием, качество распознавания приличное.
Минусы: нужен платный аккаунт Yandex.Cloud и его настройка под нужды скрипта. Сам скрипт пока не очень удобен в использовании, т.к. писался под себя. Если кому интересно попробовать на своих аудио за небольшую денежку, пишите.