Найти в Дзене
Вячеславный интернет

Установка Whisper на ПК. Нейросеть транскрибирует видео и аудио в текст.

Оглавление

Зачем нужен Whisper?

Зачастую, копирайтеры, работающие на потоке, хотят оптимизировать свой рабочий процесс, чтобы сэкономить время, которое тратится на написание и публикацию статей. Написать лонгрид своими руками "из мозга" это дело нескольких часов. Написать рерайт - тоже долго, но можно воспользоваться ChatGPT. Но что делать, когда вы нашли видео в Ютубе или ещё где-то, и хотите заимствовать контент, а перепечатывать текст на клавиатуре, да и потом ещё рерайтить, это вообще не вариант? Выход есть! Нейросеть Whisper!

Whisper - это нейросеть, разработанная компанией OpenAI, которая переводит аудио и видео файлы в текст. Исходный код и модели этой нейросети выложены в свободный доступ.

Грубо говоря, вы скачиваете и устанавливаете программу на свой ПК, запускаете, загружаете в неё медиафайл, и через несколько минут у вас готовый распознанный текст, с которым можно работать. Вам остаётся только отредактировать (причесать) этот текст, "руками" или GPT, добавить картинки (скриншоты, фото...), и отправлять готовую статью на публикацию.

В этой статье я расскажу, как установить нейросеть Whisper локально на свой компьютер и перевести, например, Mp3 аудио-дорожку из видео с ютуба в текст.

Важно! для быстрой работы Whisper нужна мощная видеокарта с большим объёмом видеопамяти (VRAM) или хороший многоядерный процессор. Но существуют аналоги, об этом в конце статьи.

Желательно иметь Nvidia RTX с 10 ГБ VRAM и больше.

Как Whisper понимает речь лучше человека

Whisper — это открытая модель искусственного интеллекта от OpenAI, созданная для распознавания и транскрибации речи. Её выпустили в сентябре 2022 года, и с тех пор она заслужила репутацию одного из самых точных инструментов в своей нише.

Ключевые особенности:

  • Поддержка 99 языков — от английского и китайского до исландского и суахили.
  • Умение работать с шумными аудиодорожками (например, запись с вечеринки или уличного интервью).
  • Распознавание специфических терминов, имён и редких слов.
  • Возможность не только переводить речь в текст, но и определять язык автоматически.

Пример: Загрузите аудио на хорватском с фоновым шумом моря — Whisper расшифрует его, даже если вы не знаете, на каком языке говорил спикер.

Как Whisper училась понимать речь?

Секрет модели — в её обучении. OpenAI использовала 680 000 часов размеченных аудиоданных с YouTube, подкастов, телефонных разговоров и даже радиопередач. Это в 100 раз больше, чем датасеты для предыдущих моделей!

Что это даёт?

  • Модель знает акценты: от техасского английского до индийского варианта хинди.
  • Понимает контекст: отличает «там» от «том» даже в неразборчивой речи.
  • Распознаёт паузы, смех, кашель и другие невербальные звуки.

Интересно: Whisper умеет «думать» на нескольких языках одновременно. Например, если в аудио есть фразы на французском и немецком, она корректно переключится между ними.

Архитектура: Почему Whisper точнее конкурентов?

В основе модели — трансформерная архитектура, похожая на ту, что используется в ChatGPT. Но есть нюансы:

  1. Кодировщик (Encoder)
    Преобразует аудиосигнал в «векторы» — математические представления звука.
    Анализирует спектрограммы, чтобы выделить речь из шума.
  2. Декодировщик (Decoder)
    Превращает векторы в текст.
    Использует контекстные подсказки: если в предложении звучит «яблоко», следующее слово, скорее всего, «съел», а не «космос».

Главное отличие от Google Speech-to-Text или Amazon Transcribe:

  • Whisper — универсальная модель. Её не нужно дообучать под конкретный акцент или микрофон.
  • Она работает оффлайн (если скачать веса модели), что важно для конфиденциальности.

Где Whisper применяется?

  1. Субтитры для видео
    Сервисы вроде Descript и Otter.ai используют Whisper для автоматической расшифровки интервью и лекций. Точность достигает
    95% даже без постобработки.
  2. Голосовые помощники
    Разработчики встраивают Whisper в приложения для управления умным домом или записи медицинских диагнозов.
  3. Лингвистика и образование
    Учителя анализируют произношение студентов, а антропологи расшифровывают записи на исчезающих языках.
  4. Подкастинг
    Например, подкаст
    Lex Fridman использует Whisper для генерации транскриптов 4-часовых эпизодов.

Сравнение с аналогами

-2

Как Whisper справляется с сложными задачами?

  • Перекрывающаяся речь. Если два человека говорят одновременно, модель выделяет реплики по голосам (но пока не идеально).
  • Музыка и звуки. Отфильтровывает фоновые треки, фокусируясь на словах.
  • Сленг и диалекты. Распознаёт выражения вроде «чилить» или «краш» благодаря обучению на современных данных.

Пример запроса:
«Расшифруй аудио, где мужчина с шотландским акцентом рассказывает о квантовой физике под звуки дождя».

Ограничения модели

  1. Задержка. Обработка часовой записи может занять 2–3 минуты даже на мощном GPU.
  2. Пунктуация. Модель иногда ставит запятые или точки в странных местах.
  3. Специфические термины. Медицинские или технические названия требуют пост-редактуры.
  4. Реальное время. Для live-трансляции (например, Zoom-конференции) Whisper пока не идеальна.

Перейдём к установке Whisper на компьютер.

Необходимый SOFT для работы Whisper

Для работы нейросети (исходного кода) нужны некоторые библиотеки и среды разработки.

Python

Сначала нужно установить Python 3.11.4 или 3.10.11.

-3

Ссылка на страницу скачивания https://www.python.org/downloads/release/python-3114/

Не забудьте поставить галочку здесь:

-4

После установки "Питона", проверьте, версию через CMD, чтобы убедиться, что всё прошло успешно.

Запустите консоль сочетанием Win+R (Выполнить) или в поиске "CMD".

-5

Пропишите команду "Python -- version" и нажмите Enter.

-6

Всё, консоль отобразила версию Python, продолжаем.

PyTorch

Далее необходимо установить PyTorch https://pytorch.org/

-7

Введите в консоль: "pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118"

Либо выберите CUDA 12.1, если у вас современная видеокарта и свежий драйвер и команда поменяется на: "pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121"

Если у вас видеокарта от AMD Radeon, то возможно, вам нужно будет выбрат CPU, то я не проверял... так что сами там...

-8

"pip3 install torch torchvision torchaudio"

Если установка не запустилась, поменяйте "pip3" на "python -m pip"

-9

FFmpeg

Теперь вам нужны автоматические сборки FFmpeg для того, чтобы ПО понимало разные форматы аудио и видео. Ссылка на GitHUB https://github.com/BtbN/FFmpeg-Builds/releases

Качаем архив

-10

Разархивируйте файлы и перейдите в Дополнительные параметры системы (Свойства компьютера).

-11

Нажимаем на кнопку Переменные среды.

Теперь нужно выбрать Путь до файлов Питона, кликаем на "Path", на кнопку Создать в появившемся окне и добавляем адрес папки, где лежат файлы FFmpeg.

-12

Но можно сразу закинуть эти файлы в нужную папку с Питоном и не нервничать.

Для этого перейдите в Домашнюю папку (папка пользователя), там включите отображение скрытых файлов и папок. Должна появиться папка AppData.

-13

Теперь идём до папки Scripts, у меня она находится по этому адресу:

C:\Users\Slava\AppData\Local\Programs\Python\Python310\Scripts

Туда закидываем все три файла FFmpeg.

Проверьте через CMD, введите "FFmpeg".

-14

Если выдало такое, то всё хорошо.

Git

Теперь нужно установить Git. Переходим на официальный сайт и скачиваем.

-15

После установки пропишите в Переменных средах пути Питона для папок bin и cmd Гита =)

-16

В этом ничего сложного, на самом деле, нет.

Вот тут, если что, лежат эти папки.

-17

Из свойств папки копируем путь и вставляем в Переменные среды, ну на скриншоте выше показал.

-18

Проверяем через Командную строку:

-19

Установка нейросети Whisper

Переходим к самому главному, загрузим исходники нейросети Whisper, чтобы начать с ней работать.

Вот ссылка на GitHub: https://github.com/openai/whisper

Но не качайте с него.

-20

Загрузку выполним через консоль, чтобы все файлы сразу поместились куда нужно!

Даже на странице ГитХаба разрабы пришут, как правильно установить.

-21

Введите в CMD эту команду: "pip install -U openai-whisper"

или "python -m install -U openai-whisper"

После процесса скачивания и установки проверьте, работает ли Whisper.

В CMD введите "Whisper -h" чтобы вызвать помощь по программе.

-22

Как транскрибировать видео или аудио в Whisper

Для того чтобы распознать текст из медиа, нужно это медиа, прежде всего, скачать на комп.

Для примера возьмём любое короткое видео из YouTube.

Я нашёл видеоролик о настройке гитары. Его нужно скачать любыми способами на жёсткий диск. Я пользуюсь программой Freemake Video Downloader или онлайн сервисами типо ssyoutube.one

-23

Но можете в Гугле поискать

-24

Копируем ссылку на видео

-25

Скачиваем видео или MP3

-26

Если на каком-то сервисе есть возможность скачать аудиодорожку из видео, то это лучший вариант, который ускоряет работу.

-27

Создайте папку, где вам удобно, перенесите в неё этот файл.

-28

Переходим в эту папку и выделяем адрес в адресной строке.

-29

Вводим "CMD" и нажимаем Enter.

Откроется командная строка (консоль) уже с адресом этой папки.

-30

Теперь нам нужно запустить нейросеть Whisper, выбрать модель, которая нам будет транскрибировать текст из видоса, и дождаться окончания процесса.

Но перед этим давайте переименуем файл, чтобы с ним было удобно работать.

Пишем команду: "Whisper video1.mp4" и начнётся транскрибация.

-31

Нейросеть натренерована и скомпонована в несколько моделей.

-32

Если вы не указываете ничего то запускается модель Large (но это неточно), она же самая "умная" и хорошо транскрибирует, проставляет знаки препинания, и даже умеет определять спикеров.

Так что лучше пропишите: "whisper video1.mp4 --model large"

Чтобы нейросеть точно поняла, какую модель вы хотите задействовать!

Ух, моя видеокарта RTX 3080 загудела вентиляторами))

-33
-34

Автоматически распознаёт языки, с русским работает очень хорошо.

-35

Если вы пропишите "Whisper video1.mp4 --model medium" то процесс транскрибации запустится на модели Медиум, которая работает быстрее, но текст распознаёт хужё.

Дождитесь завершения процесса, и вы сможете обнаружить в папке несколько текстовых файлов, с которыми можно будет дальше работать.

-36

Whisper WebUI

Многим не по душе работать с командной строкой, и на этот случай есть сборка нейросети Whisper с Web-интерфейсом.

-37

Скачать можно тут: https://github.com/jhj0517/Whisper-WebUI

-38

Просто запустите файл установки и скрипт установит весь нужный софт и библиотеки за вас. Иными словами, вам не придётся проделывать тот сложный путь, о котором я писал ранее в статье.

-39

Для запуска нейросети и интерфейса кликните дважды на файл start-webui

-40

Откроется консоль, запустится локальный сервер для Web-интерфейса.

-41

Перетащите аудио или видео в специальное поле сверху, или выберите через проводник.

-42

Далее нужно указать модель large v2, которая работает лучше всех, и TXT файл для вывода.

-43

Если у вас проблемы с транскрибацией на видеокартах AMD или вы хотите задействовать только процессор, то выбирайте CPU в графе Devices.

-44

Нажимаем на Generate subtitle file. И нейросеть начнёт транскрибировать текст из видео.

-45

Файл будет лежать в папке со сборкой под названием "outputs"

-46
-47

Установка Whisper через Pinokio

Есть отличный сервис, вернее некий софт, который сделан как журнал или браузер, где вы можете выбрать из списка любую нейросеть и в один клик установить себе на компьютер.

-48

Главная страница https://pinokio.computer/

В интерфейсе приложения нажимаете на Visit Discover Page

-49

И можете выбирать из списка то, что вам нужно.

-50

Нас же интересует Whisper.

-51

Автоматически загрузится весь необходимый софт и сборка нейросети с Web-интерфейсом, о котором я рассказывал ранее в статье.

Вам остаётся лишь нажать на кнопку и дождаться завершения.

-52

Заключение.

Whisper - это очень полезный инструмент для копирайтеров, рерайтеров и контентмейкеров. Конечно, одно дело "вынуть" текст из видео, другое - это правильно его обработать, отредактировать и причесать.

А, я же обещал аналог Whisper скинуть, совсем забыл. Вот сервис: https://www.you-tldr.com/

Ещё можно установить Whisper в Google Colaboratory и использовать нейросеть в облаке, если у вас слабый комп, но об этом потом...

Если вы ещё не пробовали Whisper — самое время. Возможно, она избавит вас от часов рутинной работы, освободив время для творчества. Ведь будущее уже наступило — оно просто пока неравномерно распределено.

Подпишись, поставь лайк и поделись с друзьями!

Жмякни на колокольчик