Удобное решение для распознавания коротких голосовых сообщений есть, а для длинных аудиофайлов (совещания, вебинары)? Я не нашёл.
Единственное, что нашёл - скрипт для Yandex SpeechKit.
Дополил его под свои нужды, и вуаля: на входе — mp3 любого размера (до 4 часов), на выходе — расшифровка с таймкодами.
- Плюсы: работает с минимальным человеческим участием, качество распознавания приличное.
- Минусы: нужен платный аккаунт Yandex.Cloud и его настройка под нужды скрипта. Сам скрипт пока не очень удобен в использовании, т.к. писался под себя. Если кому интересно попробовать на своих аудио за небольшую денежку, пишите.