Найти в Дзене
Ivan Inby. Про ИИ и ИТ

MacWhisper: расшифровка аудио и видео ЛОКАЛЬНО на Mac (без облака и интернета)

Если нужно быстро превратить запись (лекцию, созвон, голосовую) в текст локально на Mac, без облаков — MacWhisper закрывает эту задачу почти “в пару кликов”. Под капотом — Whisper от OpenAI, а в интерфейсе есть не только транскрибация, но и удобные фишки: сегменты, плеер, перевод, суммаризация и даже чат по распознанному тексту. Всем привет, меня зовут Иван. Сегодня расскажу, что делать, если у вас есть запись — лекция, встреча, голосовые заметки — и нужно превратить это в текст.
Причём хочется сделать это быстро, не руками, и главное — локально на своём устройстве, не отправляя данные в облака. Для этого есть программа MacWhisper. Давайте посмотрим, что она умеет и как ей пользоваться. MacWhisper — это программа для Mac, которая работает на технологии Whisper от OpenAI. Сам Whisper — бесплатная технология (исходники доступны на GitHub), но мы сегодня не про “ставим через терминал”, а про юзер-френдли вариант: визуальный интерфейс, в котором всё делается мышкой. Чтобы найти программу:
Оглавление

Если нужно быстро превратить запись (лекцию, созвон, голосовую) в текст локально на Mac, без облаков — MacWhisper закрывает эту задачу почти “в пару кликов”. Под капотом — Whisper от OpenAI, а в интерфейсе есть не только транскрибация, но и удобные фишки: сегменты, плеер, перевод, суммаризация и даже чат по распознанному тексту.

Видеоверсия статьи

Как перевести аудио/видео в текст локально на Mac (без облаков): MacWhisper

Всем привет, меня зовут Иван. Сегодня расскажу, что делать, если у вас есть запись — лекция, встреча, голосовые заметки — и нужно превратить это в текст.
Причём хочется сделать это
быстро, не руками, и главное — локально на своём устройстве, не отправляя данные в облака.

Для этого есть программа MacWhisper. Давайте посмотрим, что она умеет и как ей пользоваться.

Где скачать MacWhisper и что это вообще за штука

MacWhisper — это программа для Mac, которая работает на технологии Whisper от OpenAI. Сам Whisper — бесплатная технология (исходники доступны на GitHub), но мы сегодня не про “ставим через терминал”, а про юзер-френдли вариант: визуальный интерфейс, в котором всё делается мышкой.

Чтобы найти программу:

  • вбиваем в поиске “MacWhisper”
  • обычно первые ссылки — официальный сайт и обсуждение/тред на Reddit

На Reddit разработчик рассказывает, как всё работает, где скачать и как пользоваться. И это полезно: тред живой, можно задать вопрос и получить ответ от автора или комьюнити (по крайней мере, на момент записи это реально работает).

Результаты поиска “MacWhisper”
Результаты поиска “MacWhisper”
Тред на Reddit от разработчика
Тред на Reddit от разработчика

Бесплатная версия и лицензия — что выбрать

На официальном сайте есть варианты:

  • бесплатная версия — работает, но обычно с ограничениями по моделям/качеству
  • платные лицензии — на 1 устройство или сразу на несколько (если нужно в команду)

Для базовых задач (просто распознавать записи в текст) часто хватает и бесплатной версии.

И ещё важный момент: скачать приложение можно не только с сайта, но и через App Store, то есть поставить нативно, как обычную программу.

Официальный сайт MacWhisper
Официальный сайт MacWhisper

MacWhisper в App Store
MacWhisper в App Store

Первый запуск: что внутри интерфейса

После запуска нас встречает довольно понятный интерфейс:

Сверху:

  • справка
  • настройки
  • управление моделями (скачать/выбрать)
  • выбор языка распознавания

Слева:

  • список ваших транскрипций (чтобы быстро открывать старые)

Также есть шорткаты / быстрые команды: можно использовать предустановленные или сделать свои сценарии.

Главный экран MacWhisper
Главный экран MacWhisper

Тест в бою: превращаем видео в текст за минуту (и всё локально)

Я заранее поставил себе модель Large V3 Turbo (для теста). И дальше сделал простой сценарий: взял видео с моего канала (где я рассказывал про Fullmoon на iPhone) и прогнал через MacWhisper.

Как начать распознавание:

  • просто перетаскиваем файл (mp3 или видео) в окно программы
  • после отпускания мышки распознавание стартует автоматически

Дальше видно:

  • как растёт распознанный текст
  • прогресс и примерное время до окончания
  • снизу — управление плеером
  • есть окошко предпросмотра видео

По ощущениям — очень быстро: у меня 12-минутное видео распозналось буквально за считанные секунды (понятно, что это зависит от железа и выбранной модели).

Перетаскивание файла в окно MacWhisper
Перетаскивание файла в окно MacWhisper
Процесс распознавания
Процесс распознавания

Качество распознавания: где идеально, а где “спотыкается”

Сразу скажу: это видео я считаю сложным — у меня там не идеальная дикция, плюс встречаются английские термины.

Что понравилось:

  • первые фразы распознались нормально
  • английские слова типа open-source, App Store тоже подтянулись адекватно
  • в целом текст читаемый и его уже можно использовать как основу

Что заметил по ошибкам:

  • иногда слова распознаются “похожими”, но не теми (особенно в местах с англ. терминами)
  • бывают странные варианты вроде “universet” вместо ожидаемого слова
  • VisionOS может распознаться не так, как хотелось бы

Но общий вывод: результат очень достойный, особенно учитывая, что всё делается локально на Mac.

Режим по сегментам (короткие фразы)
Режим по сегментам (короткие фразы)

Сегменты + плеер: удобно проверять и править

Одна из самых полезных вещей — связка сегменты + плеер.

Вы можете:

  • перемещаться по сегментам
  • кликать на нужный кусок текста
  • и попадать ровно в соответствующий момент аудио/видео

Это сильно экономит время, когда нужно быстро проверить спорные места.

 Плеер + выделенный сегмент текста
Плеер + выделенный сегмент текста

Что ещё умеет MacWhisper: перевод, суммаризация и чат по тексту

1) Перевод

Распознанный текст можно перевести на другой язык, если это нужно.

[Скриншот 11 — кнопка/меню перевода распознанного текста]

2) Суммаризация (выжимка)

Есть встроенная суммаризация: превращает большой текст в короткое саммари по темам.
Но важный момент: чтобы суммаризация работала, нужно подключить модель (локальную или внешнюю) — обычно это делается через токен/адрес/название модели.

Я проверил — саммари получается удобное: уже можно отправлять заказчику, класть в заметки или использовать как основу для описания.

Запуск суммаризации
Запуск суммаризации
Результат суммаризации: темы/краткое описание
Результат суммаризации: темы/краткое описание

3) Чат по распознанному тексту

Есть ещё фишка, которая мне прям зашла: чат по транскрипции.

То есть вы задаёте вопрос не “вообще”, а по содержимому распознанного текста.
Я, например, спросил: “Нужна ли подписка для Fullmoon?” — и приложение ответило корректно, потому что это реально проговаривалось в видео.

Окно чата по распознанному тексту + вопрос + ответ
Окно чата по распознанному тексту + вопрос + ответ

Запись прямо из программы: Voice Memo → сразу в текст

MacWhisper умеет писать звук прямо внутри:

  • создаём новую запись (задаём название)
  • жмём “Начать запись”
  • говорим
  • “Стоп”
  • “Распознать”

Я сделал короткий тест — распозналось неплохо, хотя в таких “мелких” записях тоже бывают смешные осечки (особенно на отдельных словах).

Создание Voice Memo
Создание Voice Memo

Указание наименования
Указание наименования
Процесс записи
Процесс записи

Результат распознования
Результат распознования

Модели: какие бывают и что выбирать

В управлении моделями видно, что есть разные источники/наборы, но если говорить про самый распространённый и понятный вариант — это Whisper.

У Whisper есть несколько моделей:

  • маленькие (в бесплатной версии обычно доступны именно они) — быстро, но точность ниже
  • отдельная “маленькая” модель, заточенная под английский (если распознаёте английскую речь — удобно)
  • большие модели (v2/v3) — весят уже гигабайты, точность выше, но нагрузка тоже выше

Я для теста использовал Large V3 Turbo.

Логика простая:

  • хотите быстрее → берите модель поменьше
  • хотите точнее → берите модель побольше (если Mac тянет)

Меню выбора моделей Whisper (small / small.en / large v2/v3 / turbo)
Меню выбора моделей Whisper (small / small.en / large v2/v3 / turbo)

Итоги: когда MacWhisper реально полезен

MacWhisper — это решение, которое закрывает понятную бытовую (и рабочую) боль:

  • быстро перевести запись в текст
  • сделать это локально
  • потом удобно проверить спорные места через сегменты/плеер
  • и дополнительно получить саммари или задать вопрос по тексту

При этом качество, скорость и итоговый результат зависят от трёх вещей:

  • мощность вашего Mac
  • выбранная модель
  • длина и качество исходной записи

На этом у меня всё. Если хотите — сделаю отдельный разбор по моделям (что выбирать под лекции/созвоны/английский язык) или покажу настройку суммаризации и чата (локально vs внешняя модель).

Если досмотрели (и дочитали) до конца — спасибо! Подписывайтесь на мой канал, и телеграм

Ivan Inby. Про ИИ и ИТ

и бусти!

Ivan Inby - Продвигаю ИИ в массы