Добавить в корзинуПозвонить
Найти в Дзене
Международная панорама

Как бесплатно расшифровать текст с помощью ИИ

Мои читатели, вероятно, заметили, что я пишу на этом канале не только о политических событиях в мире, но и, хоть и неоправданно редко, о достижениях мировой науки и новостях технологий. И это, как мне кажется, правильно: мир незациклен лишь на политике, поэтому международная панорама включает и научные и технологические достижения. Задолго до того, как ИИ стал использоваться для создания видео и кодирования программ, он использовался для понимания устной речи и выполнения действий на её основе. Благодаря ИИ вы можете общаться с Alexa, Siri и Google Assistant и заставлять эти приложения выполнять ваши приказы. Эти же алгоритмы могут помочь вам создать цифровые стенограммы из аудиофайлов, содержащих речь, будь то файлы встреч, интервью, лекций или просто голосовые заметки, которые вы записали для себя. Стенограммы дают вам письменную запись того, что было сказано, и их можно легко искать. Мне остаётся только сожалеть, что таких возможностей не было ещё 10 лет назад, когда я завершил реда
Оглавление

Превращайте аудиозаписи в письменный текст.

Если вам нужно преобразовать речь в текст, ИИ может помочь. Изображение: Vika Strawberrika/Unsplash.
Если вам нужно преобразовать речь в текст, ИИ может помочь. Изображение: Vika Strawberrika/Unsplash.

Мои читатели, вероятно, заметили, что я пишу на этом канале не только о политических событиях в мире, но и, хоть и неоправданно редко, о достижениях мировой науки и новостях технологий. И это, как мне кажется, правильно: мир незациклен лишь на политике, поэтому международная панорама включает и научные и технологические достижения.

Задолго до того, как ИИ стал использоваться для создания видео и кодирования программ, он использовался для понимания устной речи и выполнения действий на её основе. Благодаря ИИ вы можете общаться с Alexa, Siri и Google Assistant и заставлять эти приложения выполнять ваши приказы.

Эти же алгоритмы могут помочь вам создать цифровые стенограммы из аудиофайлов, содержащих речь, будь то файлы встреч, интервью, лекций или просто голосовые заметки, которые вы записали для себя. Стенограммы дают вам письменную запись того, что было сказано, и их можно легко искать. Мне остаётся только сожалеть, что таких возможностей не было ещё 10 лет назад, когда я завершил редакционную работу в главной газете Петербурга и ушёл на пенсию...

Такие известные сервисы транскрипции, как Rev и Happy Scribe, предлагают только ограниченный объем транскрипции бесплатно, но вы можете сделать эту работу, не платя ничего, благодаря Whisper. Это движок преобразования речи в текст, разработанный OpenAI (известный как ChatGPT), и нет никаких ограничений на его использование.

У вас есть возможность использовать веб-версию приложения, размещенную на Hugging Face, что удобно, но часто бывает загружено в часы пик. Вы также можете установить программное обеспечение локально на Windows — это означает более быструю транскрипцию, но вам понадобится приличный ПК, чтобы справиться с требованиями обработки ИИ.

Whisper в сети

Whisper в Интернете — быстрый и простой в использовании. Скриншот: Whisper
Whisper в Интернете — быстрый и простой в использовании. Скриншот: Whisper

Перейдите на Whisper on Hugging Face, и вы сможете получить аудиозапись бесплатно прямо в вашем браузере — вам даже не понадобится регистрироваться для получения учётной записи. У вас есть возможность загрузить аудиофайл с вашего компьютера или записать речь непосредственно в приложение, если у вас подключен микрофон. Имейте в виду, что ваше аудио может быть использовано для дальнейшего обучения будущих моделей ИИ — как это часто бывает, политики конфиденциальности OpenAI и Hugging Face не содержат четких указаний по этому поводу.

Чтобы загрузить и обработать аудиофайл:

  • Откройте вкладку Аудиофайл.
  • Выберите «Нажмите для загрузки».
  • Выберите аудиофайл.
  • Установите флажок «Транскрибировать».
  • Нажмите «Отправить».

Через несколько секунд (или чуть больше) вы увидите текстовый вывод в правой части экрана. Время обработки зависит от длины вашего аудиофайла и загруженности серверов Hugging Face. Поскольку это бесплатный сервис, открытый для всех, он также очень популярен, поэтому вам может потребоваться довольно много времени, чтобы файлы прошли очередь.

В интерфейсе вы найдете несколько полезных инструментов. Например, щелкните значок маленькой ручки прямо над полосой воспроизведения аудио, и вы сможете обрезать начало и конец клипа — удобно, если вам нужно вырезать тишину или неважные части аудио.

Вы также можете переключиться на вкладку «Микрофон» , чтобы записать аудио непосредственно в интерфейс Whisper, или переключиться на вкладку YouTube и получить транскрипции из любого видео. Просто вставьте URL-адрес видео, и все готово. Стоит отметить, что YouTube уже автоматически добавляет транскрипции к некоторым видео, которые можно найти в разделах комментариев.

Whisper в Windows

Whisper использует простой интерфейс командной строки. Скриншот: Whisper
Whisper использует простой интерфейс командной строки. Скриншот: Whisper

Если вы сталкиваетесь с большим количеством задержек в веб-приложении Whisper или просто хотите, чтобы обработка транскрипции была более локальной и приватной, вы можете настроить модель ИИ на компьютере с Windows. Вам нужна видеокарта с поддержкой CUDA ( см. список здесь ) с объемом видеопамяти не менее 4 ГБ для обработки — если у вас установлена ​​относительно новая карта Nvidia, она, вероятно, подойдет.

Этот процесс гораздо более сложный и не дает вам многого в плане пользовательского интерфейса, так что он не для всех. Однако у него есть преимущества, о которых мы уже упоминали, и вам не придется стоять в очереди, ожидая обработки ваших файлов. Это также классный небольшой проект, если вам нравится возиться с кодом и программами.

Если ваш компьютер соответствует требованиям, вам нужно установить на нем некоторые компоненты: Python для кодирования (убедитесь, что во время установки отмечен флажок Add python.exe to PATH ), PyTorch для библиотек машинного обучения, Chocolatey для управления программными пакетами и FFmpeg для обработки звука. Все они поставляются с инструкциями по установке на соответствующих веб-сайтах, если они вам нужны.

Теперь вы готовы установить сам Whisper: найдите «cmd» в меню «Пуск» и откройте командную строку , затем введите «pip install -U openai-whisper» и нажмите Enter . После завершения установки вы можете расшифровать файлы следующим образом:

  • Откройте папку с аудиофайлами в проводнике.
  • Нажмите на адресную строку вверху, введите «cmd» и нажмите Enter .
  • Введите «whisper», затем пробел, затем название вашего аудиофайла.
  • Нажмите Enter еще раз, и обработка начнется.

Текст отображается на экране и сохраняется как ряд текстовых файлов в той же папке, что и аудио. Если вам нужно конвертировать несколько файлов одновременно, просто перечислите их все после команды «шепчет», разделяя каждый пробелом.

Даже если вы не знакомы с Python или командной строкой, у вас не должно возникнуть особых проблем с тем, чтобы все настроить и запустить. В сети есть множество руководств, которые могут помочь, если вам нужна помощь. Это одно из лучших руководств, которое шаг за шагом проведет вас через каждый этап и объяснит некоторые доступные вам расширенные функции (например, переключение на другую модель ИИ).

Приходите на мой канал ещё — буду рад. Комментируйте и подписывайтесь!

Поддержка канала скромными донатами (акулы бизнеса могут поддержать и нескромно):

Номер карты Сбербанка — 2202 2068 8896 0247 (Александр Васильевич Ж.) Пожалуйста, сопроводите сообщением: «Для Панорамы».