Добавить в корзинуПозвонить
Найти в Дзене

Я перешел на Handy и модель Nvidia Parakeet V3

Недавно я писал статью про приложение Super whisper. Тогда оно казалось идеальным решением для расшифровки аудио. Но спустя время начались проблемы: приложение стало лагать, перестало корректно заносить текст в реальном времени. Моментами перестала ловить связь с сервером: записываешь аудио, упс транскрибации нет. Поиск альтернативы стал необходимостью. Брат посоветовал попробовать полностью открытый аналог с аналогичным функционалом, но более гибкой настройкой. Инструмент называется Handy. Handy — это open-source решение для распознавания речи. В отличие от моего предыдущего опыта с Super whisper, здесь настройка оказалась проще, а функционал — насыщеннее. Ключевые преимущества: https://github.com/cjpais/Handy: Ссылка на репозиторий GitHub Самое важное — это модель, которая работает внутри. Я выбрал Nvidia Parakeet V3. При желании можно выбрать другие модели. Одна из киллер-фич Handy — возможность настройки горячих клавиш для разных сценариев. Я настроил два основных режима, которые
Оглавление

Недавно я писал статью про приложение Super whisper. Тогда оно казалось идеальным решением для расшифровки аудио. Но спустя время начались проблемы: приложение стало лагать, перестало корректно заносить текст в реальном времени. Моментами перестала ловить связь с сервером: записываешь аудио, упс транскрибации нет. Поиск альтернативы стал необходимостью.

Брат посоветовал попробовать полностью открытый аналог с аналогичным функционалом, но более гибкой настройкой. Инструмент называется Handy.

Что такое Handy и почему он лучше?

Handy — это open-source решение для распознавания речи. В отличие от моего предыдущего опыта с Super whisper, здесь настройка оказалась проще, а функционал — насыщеннее.

Ключевые преимущества:

  • Open Source: Полный доступ к коду, прозрачность работы.( я особо в этом не понимаю)
  • Производительность: Работает стабильнее, без задержек ввода. (локальные вычисления)
  • Гибкость: Поддержка экспериментальных настроек и кастомных промптов.

https://github.com/cjpais/Handy: Ссылка на репозиторий GitHub

Скриншот главного интерфейса программы Handy.
Скриншот главного интерфейса программы Handy.

Сердце системы: Модель Nvidia Parakeet V3

Самое важное — это модель, которая работает внутри. Я выбрал Nvidia Parakeet V3. При желании можно выбрать другие модели.

  • Качество расшифровки: Честно говоря, я от этого без ума. Она распознает текст настолько точно, что минимизирует необходимость ручного редактирования. Даже лучше чем облачные решения от OpenAI
  • Доступность: Модель также имеет открытый исходный код (open source).
  • Производительность: Отлично оптимизирована для локального запуска.
Скриншот окна выбора модели в настройках Handy.
Скриншот окна выбора модели в настройках Handy.

Мой рабочий поток

Одна из киллер-фич Handy — возможность настройки горячих клавиш для разных сценариев. Я настроил два основных режима, которые закрыли 90% моих задач.

Режим 1: Быстрая расшифровка (В буфер и в поле ввода)

  • Комбинация: Ctrl + Пробел
  • Как работает: Я зажимаю комбинацию, диктую текст.
  • Результат: Аудио мгновенно расшифровывается, текст попадает и в буфер обмена, и сразу в активное поле ввода.
  • Зачем: Идеально для быстрого набора сообщений в мессенджерах или заметках.
Примечание: Я даже перестал пользоваться голосовым вводом в ИИ. Там нужно навести на экране на кнопку и держать, мне проще зажать 2 кнопки на клавиатуре

Режим 2: Агентская постобработка (AI-агент)

  • Комбинация: Ctrl + Shift + Пробел
  • Как работает: Диктую задачу, но текст не просто вставляется, а отправляется на обработку локальной модели (у меня работает связка с ollama).
  • Результат: Агент обрабатывает запрос и возвращает готовый результат.
  • Зачем: Мне не нужно постоянно открывать ChatGPT или новую ветку чата. Я могу прямо в поиске или в любом окне вызвать агента, сказать: «Напиши мне промпт для...» или «Сформулируй ответ...», и он сразу вернет готовый текст.
Настройка постобработки в Handy. Использую облачную модель от ollama - qwen3.5:397b (Эта часть работает с подключением в интернет и запуска контейнера) но можно заменить на другие api
Настройка постобработки в Handy. Использую облачную модель от ollama - qwen3.5:397b (Эта часть работает с подключением в интернет и запуска контейнера) но можно заменить на другие api

Использую эту фишку как: Говорю свой запрос и в конце добавляю ".. Напиши промпт" и Мне в поле ввода сразу выводится готовый промпт, который я обычно даже не дорабатываю.

Инструкция по установке

1. Скачивание: Перейдите на официальную страницу проекта. Ссылка: https://github.com/cjpais/Handy/releases - По ссылке полно различных исполнений для каждой системы для Windows (c intel или AMD) ищем **_x64-setup.exe
2. Установка модели: В настройках выберите раздел «Models» и загрузите Nvidia Parakeet V3. Важно: насколько помню для скачивания этой модели приходилось использовать VPN. Без скачивания модели приложение не откроет настройки
3. Настройка горячих клавиш:

Для транскрипции

  1. Зайдите в Общие->Горячая клавиша транскрипции->По умолчанию стоит Ctrl+Space

Для постобработки

  1. Откройте Продвинутые->Экспериментальные функции->Вкл
  2. Перейдите в низ списка в раздел Экспериментальное->Постобработка->Вкл
  3. Перейдите в появившийся раздел Постобработка->Горячая клавиши постобработки->По умолчанию стоит Ctrl+Shift+Space.

4. Интеграция с агентом: Если вы хотите использовать режим «Постобработки», убедитесь, что у вас запущена локальная LLM (например, через Ollama или LM Studio) или есть облачные API, и укажите соответствующий эндпоинт в настройках Handy.

Пример заполнения Постобработки
Пример заполнения Постобработки

5. Готово: Пользуйтесь крутым инструментом совершенно бесплатно

Заключение

Переход с Super Whisper на Handy оказался для меня вынужденным, но приятным шагом. Поддержка мощной модели Nvidia Parakeet и, главное, удобная работа с горячими клавишами сделали мой рабочий процесс значительно быстрее. Теперь я не теряю свои записи и не вынужден трижды диктовать свои мысли, а могу сделать это с первого раза, а также могу обрабатывать текст в любом окне системы.

Рекомендую попробовать, особенно если вы ищете приватное и быстрое решение для Speech-to-Text. Я активно пользуюсь данным приложением на протяжении одного месяца, и я просто в восторге.

Примечание: мои настройки на вкладке "Продвинутые"

Мои продвинутые настройки
Мои продвинутые настройки