Вдогонку к написанному ранее сообщаю, что нашел более удобное и бесплатное решение для преобразования речи в текст (транскрибирования), доступное любому желающему с более-менее современным компьютером. Сделал для него обертку, чтобы одним махом распознавать текст во всех аудиофайлах в указаной папке, и выложил в репозиторий на github.
На входе - один или несколько аудиофайлов, на выходе - текстовые файлы.
Поддерживаются все популярные языки, включая русский.
- Если есть видеокарта, поддерживаемая используемыми библиотеками, то процесс будет быстрым и весёлым.
- Если нет, то распознавание будет идти помедленнее, но тоже успешно.
Я использую это решение для перевода в текст интересных роликов с YouTube и записей некоторых особо ценных онлайн-встреч.
Далее опишу весь процесс целиком, а подробности по работе со скриптом, непосредственно преобразующим аудиофайл в текст, можно почитать в Readme в репозитории.
1. Запись аудио
Вход: звук с микрофона + звук от других участников встречи
Выход: аудиофайл
Ниже приведены варианты по каждому пункту и кое-где - их особенности.
Источника звука
1. Встроенное аудиоустройство Stereomixer
- есть в системе не всегда
- записывает с эхом, т.к. в ваш микрофон попадает и ваш голос, и звук из динамика (помогает отключение микрофона, когда не говорите).
2. Выход софтового микшера типа VoiceMeeter
3. Лежащий рядом с ноутбуком телефон (его микрофон)
Программа для записи в MP3/AAC/...
- Встроенный диктофон VoiceMeeter Banana
- Любая программа для звукозаписи на компе
- Диктофон на телефоне
2. Расшифровка речи в текст
Вход: аудиофайл
Выход: текст, текст с таймкодами
Python-скрипт
Сам скрипт здесь, инструкции по использованию здесь.
Зависимости:
Настройки
- Есть несколько вариантов соотношения скорости/качества распознавания