Найти тему

О распознавании длинных аудиофайлов в текст

Удобное решение для распознавания коротких голосовых сообщений есть, а для длинных аудиофайлов (совещания, вебинары)? Я не нашёл.

Единственное, что нашёл - скрипт для Yandex SpeechKit.

Дополил его под свои нужды, и вуаля: на входе — mp3 любого размера (до 4 часов), на выходе — расшифровка с таймкодами.

  • Плюсы: работает с минимальным человеческим участием, качество распознавания приличное.
  • Минусы: нужен платный аккаунт Yandex.Cloud и его настройка под нужды скрипта. Сам скрипт пока не очень удобен в использовании, т.к. писался под себя. Если кому интересно попробовать на своих аудио за небольшую денежку, пишите.