139 подписчиков

Пакетное распознавание речи в текст бесплатно, без регистрации и СМС

18 января 202318 янв 2023

289

1 мин

Вдогонку к написанному ранее сообщаю, что нашел более удобное и бесплатное решение для преобразования речи в текст (транскрибирования), доступное любому желающему с более-менее современным компьютером. Сделал для него обертку, чтобы одним махом распознавать текст во всех аудиофайлах в указаной папке, и выложил в репозиторий на github. На входе - один или несколько аудиофайлов, на выходе - текстовые файлы.

Поддерживаются все популярные языки, включая русский. Я использую это решение для перевода в текст интересных роликов с YouTube и записей некоторых особо ценных онлайн-встреч. Далее опишу весь процесс целиком, а подробности по работе со скриптом, непосредственно преобразующим аудиофайл в текст, можно почитать в Readme в репозитории. 1. Запись аудио Вход: звук с микрофона + звук от других участников встречи

Выход: аудиофайл Ниже приведены варианты по каждому пункту и кое-где - их особенности. Источника звука 1. Встроенное аудиоустройство Stereomixer 2. Выход софтового микшера типа Voic

Оглавление

1. Запись аудио
Источника звука
Программа для записи в MP3/AAC/...

На входе - один или несколько аудиофайлов, на выходе - текстовые файлы.
Поддерживаются все популярные языки, включая русский.

Если есть видеокарта, поддерживаемая используемыми библиотеками, то процесс будет быстрым и весёлым.
Если нет, то распознавание будет идти помедленнее, но тоже успешно.

Я использую это решение для перевода в текст интересных роликов с YouTube и записей некоторых особо ценных онлайн-встреч.

Далее опишу весь процесс целиком, а подробности по работе со скриптом, непосредственно преобразующим аудиофайл в текст, можно почитать в Readme в репозитории.

1. Запись аудио

Вход: звук с микрофона + звук от других участников встречи
Выход: аудиофайл

Ниже приведены варианты по каждому пункту и кое-где - их особенности.

Источника звука

1. Встроенное аудиоустройство Stereomixer

есть в системе не всегда
записывает с эхом, т.к. в ваш микрофон попадает и ваш голос, и звук из динамика (помогает отключение микрофона, когда не говорите).

2. Выход софтового микшера типа VoiceMeeter

3. Лежащий рядом с ноутбуком телефон (его микрофон)

Программа для записи в MP3/AAC/...

Встроенный диктофон VoiceMeeter Banana
Любая программа для звукозаписи на компе
Диктофон на телефоне

2. Расшифровка речи в текст

Вход: аудиофайл
Выход: текст, текст с таймкодами

Python-скрипт

Сам скрипт здесь, инструкции по использованию здесь.

Зависимости:

Python 3.10+
Библиотека Whisper
Скомпилированный FFMPEG + путь к нему в переменной окружения path
Желательно GPU, но на CPU тоже работает (медленно)

Настройки

Есть несколько вариантов соотношения скорости/качества распознавания
Путь и модель прописаны внутри скрипта. Подробности о моделях есть в readme Whisper