Когда нужно расшифровать аудио, я предпочитаю передать это в надежные руки искусственному интеллекту. В этой статье мой личный опыт, надеюсь будет полезно. Формат аудио, который нужно было расшифровать — голосовое сообщение в Телеграме длиною 1,5 часа.
Какие сервисы я попробовал:
— Dovetail. (https://dovetail.com/) На этом сервисе можно было бы и закончить, потому что это просто бомба. Создаёшь проект, закидываешь в него mp3-файл, указываешь почту и через три минуты у тебя огроменный лонгрид. Точность расшифровки классная, я практически не заметил ошибок. Скорость распознавания тоже супер. Полтора часа за 3 минуты — это же вообще кайф! Прямо в Dovetail можно ковыряться в тексте: выделять важные части, создавать заметки. Есть отдельная папочка под инсайты и интерфейс красивый.
— Silero. (https://audio-v-text.silero.ai/) Просто не получилось использовать. Первое, с чем я столкнулся — это ограничение на 60 минут. Обрезал запись, сделал две дорожки по 45 минут — ошибка «Request timeout adter 100 seconds». Попробовал ещё несколько раз, но всё время спотыкался об ошибку.
— Распознавания голоса в ворде/гугл-доках/заметках на айфоне. Неплохая штука, потому что всегда под рукой. Но скорость распознавания…сами понимаете. Полтора часа так расшифровать нереально.
— Телеграм премиум. Не может распознавать такие длинные записи.
— SaluteSpeech Bot. Ответил ошибкой. Извините, говорит, технические неполадки. А потом по-ботовски добавил: «1111b0031489636d7eae35cf14bcf497».
💎Короче, выводы: для больших личных записей используйте Dovetail. Там еще куча фишек, но я пока не разбирался (https://dovetail.com/)