Найти тему

Пакетное распознавание речи в текст бесплатно, без регистрации и СМС

Оглавление

Вдогонку к написанному ранее сообщаю, что нашел более удобное и бесплатное решение для преобразования речи в текст (транскрибирования), доступное любому желающему с более-менее современным компьютером. Сделал для него обертку, чтобы одним махом распознавать текст во всех аудиофайлах в указаной папке, и выложил в репозиторий на github.

На входе - один или несколько аудиофайлов, на выходе - текстовые файлы.
Поддерживаются все популярные языки, включая русский.

  • Если есть видеокарта, поддерживаемая используемыми библиотеками, то процесс будет быстрым и весёлым.
  • Если нет, то распознавание будет идти помедленнее, но тоже успешно.

Я использую это решение для перевода в текст интересных роликов с YouTube и записей некоторых особо ценных онлайн-встреч.

Далее опишу весь процесс целиком, а подробности по работе со скриптом, непосредственно преобразующим аудиофайл в текст, можно почитать в Readme в репозитории.

1. Запись аудио

Вход: звук с микрофона + звук от других участников встречи
Выход: аудиофайл

Ниже приведены варианты по каждому пункту и кое-где - их особенности.

Источника звука

1. Встроенное аудиоустройство Stereomixer

  • есть в системе не всегда
  • записывает с эхом, т.к. в ваш микрофон попадает и ваш голос, и звук из динамика (помогает отключение микрофона, когда не говорите).

2. Выход софтового микшера типа VoiceMeeter

3. Лежащий рядом с ноутбуком телефон (его микрофон)

Программа для записи в MP3/AAC/...

  1. Встроенный диктофон VoiceMeeter Banana
  2. Любая программа для звукозаписи на компе
  3. Диктофон на телефоне

2. Расшифровка речи в текст

Вход: аудиофайл
Выход: текст, текст с таймкодами

Python-скрипт

Сам скрипт здесь, инструкции по использованию здесь.

Зависимости:

  • Python 3.10+
  • Библиотека Whisper
  • Скомпилированный FFMPEG + путь к нему в переменной окружения path
  • Желательно GPU, но на CPU тоже работает (медленно)

Настройки

  • Есть несколько вариантов соотношения скорости/качества распознавания
  • Путь и модель прописаны внутри скрипта. Подробности о моделях есть в readme Whisper