Когда нужно расшифровать аудио, я предпочитаю передать это в надежные руки искусственному интеллекту. В этой статье мой личный опыт, надеюсь будет полезно. Формат аудио, который нужно было расшифровать — голосовое сообщение в Телеграме длиною 1,5 часа. Какие сервисы я попробовал:
— Dovetail. (https://dovetail.com/) На этом сервисе можно было бы и закончить, потому что это просто бомба. Создаёшь проект, закидываешь в него mp3-файл, указываешь почту и через три минуты у тебя огроменный лонгрид. Точность расшифровки классная, я практически не заметил ошибок. Скорость распознавания тоже супер. Полтора часа за 3 минуты — это же вообще кайф! Прямо в Dovetail можно ковыряться в тексте: выделять важные части, создавать заметки. Есть отдельная папочка под инсайты и интерфейс красивый.
— Silero. (https://audio-v-text.silero.ai/) Просто не получилось использовать. Первое, с чем я столкнулся — это ограничение на 60 минут. Обрезал запись, сделал две дорожки по 45 минут — ошибка «Request timeout ad