Вдогонку к написанному ранее сообщаю, что нашел более удобное и бесплатное решение для преобразования речи в текст (транскрибирования), доступное любому желающему с более-менее современным компьютером. Сделал для него обертку, чтобы одним махом распознавать текст во всех аудиофайлах в указаной папке, и выложил в репозиторий на github. На входе - один или несколько аудиофайлов, на выходе - текстовые файлы.
Поддерживаются все популярные языки, включая русский. Я использую это решение для перевода в текст интересных роликов с YouTube и записей некоторых особо ценных онлайн-встреч. Далее опишу весь процесс целиком, а подробности по работе со скриптом, непосредственно преобразующим аудиофайл в текст, можно почитать в Readme в репозитории. 1. Запись аудио Вход: звук с микрофона + звук от других участников встречи
Выход: аудиофайл Ниже приведены варианты по каждому пункту и кое-где - их особенности. Источника звука 1. Встроенное аудиоустройство Stereomixer 2. Выход софтового микшера типа Voic