Если нужно быстро превратить запись (лекцию, созвон, голосовую) в текст локально на Mac, без облаков — MacWhisper закрывает эту задачу почти “в пару кликов”. Под капотом — Whisper от OpenAI, а в интерфейсе есть не только транскрибация, но и удобные фишки: сегменты, плеер, перевод, суммаризация и даже чат по распознанному тексту.
Видеоверсия статьи
Как перевести аудио/видео в текст локально на Mac (без облаков): MacWhisper
Всем привет, меня зовут Иван. Сегодня расскажу, что делать, если у вас есть запись — лекция, встреча, голосовые заметки — и нужно превратить это в текст.
Причём хочется сделать это быстро, не руками, и главное — локально на своём устройстве, не отправляя данные в облака.
Для этого есть программа MacWhisper. Давайте посмотрим, что она умеет и как ей пользоваться.
Где скачать MacWhisper и что это вообще за штука
MacWhisper — это программа для Mac, которая работает на технологии Whisper от OpenAI. Сам Whisper — бесплатная технология (исходники доступны на GitHub), но мы сегодня не про “ставим через терминал”, а про юзер-френдли вариант: визуальный интерфейс, в котором всё делается мышкой.
Чтобы найти программу:
- вбиваем в поиске “MacWhisper”
- обычно первые ссылки — официальный сайт и обсуждение/тред на Reddit
На Reddit разработчик рассказывает, как всё работает, где скачать и как пользоваться. И это полезно: тред живой, можно задать вопрос и получить ответ от автора или комьюнити (по крайней мере, на момент записи это реально работает).
Бесплатная версия и лицензия — что выбрать
На официальном сайте есть варианты:
- бесплатная версия — работает, но обычно с ограничениями по моделям/качеству
- платные лицензии — на 1 устройство или сразу на несколько (если нужно в команду)
Для базовых задач (просто распознавать записи в текст) часто хватает и бесплатной версии.
И ещё важный момент: скачать приложение можно не только с сайта, но и через App Store, то есть поставить нативно, как обычную программу.
Первый запуск: что внутри интерфейса
После запуска нас встречает довольно понятный интерфейс:
Сверху:
- справка
- настройки
- управление моделями (скачать/выбрать)
- выбор языка распознавания
Слева:
- список ваших транскрипций (чтобы быстро открывать старые)
Также есть шорткаты / быстрые команды: можно использовать предустановленные или сделать свои сценарии.
Тест в бою: превращаем видео в текст за минуту (и всё локально)
Я заранее поставил себе модель Large V3 Turbo (для теста). И дальше сделал простой сценарий: взял видео с моего канала (где я рассказывал про Fullmoon на iPhone) и прогнал через MacWhisper.
Как начать распознавание:
- просто перетаскиваем файл (mp3 или видео) в окно программы
- после отпускания мышки распознавание стартует автоматически
Дальше видно:
- как растёт распознанный текст
- прогресс и примерное время до окончания
- снизу — управление плеером
- есть окошко предпросмотра видео
По ощущениям — очень быстро: у меня 12-минутное видео распозналось буквально за считанные секунды (понятно, что это зависит от железа и выбранной модели).
Качество распознавания: где идеально, а где “спотыкается”
Сразу скажу: это видео я считаю сложным — у меня там не идеальная дикция, плюс встречаются английские термины.
Что понравилось:
- первые фразы распознались нормально
- английские слова типа open-source, App Store тоже подтянулись адекватно
- в целом текст читаемый и его уже можно использовать как основу
Что заметил по ошибкам:
- иногда слова распознаются “похожими”, но не теми (особенно в местах с англ. терминами)
- бывают странные варианты вроде “universet” вместо ожидаемого слова
- VisionOS может распознаться не так, как хотелось бы
Но общий вывод: результат очень достойный, особенно учитывая, что всё делается локально на Mac.
Сегменты + плеер: удобно проверять и править
Одна из самых полезных вещей — связка сегменты + плеер.
Вы можете:
- перемещаться по сегментам
- кликать на нужный кусок текста
- и попадать ровно в соответствующий момент аудио/видео
Это сильно экономит время, когда нужно быстро проверить спорные места.
Что ещё умеет MacWhisper: перевод, суммаризация и чат по тексту
1) Перевод
Распознанный текст можно перевести на другой язык, если это нужно.
[Скриншот 11 — кнопка/меню перевода распознанного текста]
2) Суммаризация (выжимка)
Есть встроенная суммаризация: превращает большой текст в короткое саммари по темам.
Но важный момент: чтобы суммаризация работала, нужно подключить модель (локальную или внешнюю) — обычно это делается через токен/адрес/название модели.
Я проверил — саммари получается удобное: уже можно отправлять заказчику, класть в заметки или использовать как основу для описания.
3) Чат по распознанному тексту
Есть ещё фишка, которая мне прям зашла: чат по транскрипции.
То есть вы задаёте вопрос не “вообще”, а по содержимому распознанного текста.
Я, например, спросил: “Нужна ли подписка для Fullmoon?” — и приложение ответило корректно, потому что это реально проговаривалось в видео.
Запись прямо из программы: Voice Memo → сразу в текст
MacWhisper умеет писать звук прямо внутри:
- создаём новую запись (задаём название)
- жмём “Начать запись”
- говорим
- “Стоп”
- “Распознать”
Я сделал короткий тест — распозналось неплохо, хотя в таких “мелких” записях тоже бывают смешные осечки (особенно на отдельных словах).
Модели: какие бывают и что выбирать
В управлении моделями видно, что есть разные источники/наборы, но если говорить про самый распространённый и понятный вариант — это Whisper.
У Whisper есть несколько моделей:
- маленькие (в бесплатной версии обычно доступны именно они) — быстро, но точность ниже
- отдельная “маленькая” модель, заточенная под английский (если распознаёте английскую речь — удобно)
- большие модели (v2/v3) — весят уже гигабайты, точность выше, но нагрузка тоже выше
Я для теста использовал Large V3 Turbo.
Логика простая:
- хотите быстрее → берите модель поменьше
- хотите точнее → берите модель побольше (если Mac тянет)
Итоги: когда MacWhisper реально полезен
MacWhisper — это решение, которое закрывает понятную бытовую (и рабочую) боль:
- быстро перевести запись в текст
- сделать это локально
- потом удобно проверить спорные места через сегменты/плеер
- и дополнительно получить саммари или задать вопрос по тексту
При этом качество, скорость и итоговый результат зависят от трёх вещей:
- мощность вашего Mac
- выбранная модель
- длина и качество исходной записи
На этом у меня всё. Если хотите — сделаю отдельный разбор по моделям (что выбирать под лекции/созвоны/английский язык) или покажу настройку суммаризации и чата (локально vs внешняя модель).
Если досмотрели (и дочитали) до конца — спасибо! Подписывайтесь на мой канал, и телеграм
и бусти!