Недавно я писал статью про приложение Super whisper. Тогда оно казалось идеальным решением для расшифровки аудио. Но спустя время начались проблемы: приложение стало лагать, перестало корректно заносить текст в реальном времени. Моментами перестала ловить связь с сервером: записываешь аудио, упс транскрибации нет. Поиск альтернативы стал необходимостью.
Брат посоветовал попробовать полностью открытый аналог с аналогичным функционалом, но более гибкой настройкой. Инструмент называется Handy.
Что такое Handy и почему он лучше?
Handy — это open-source решение для распознавания речи. В отличие от моего предыдущего опыта с Super whisper, здесь настройка оказалась проще, а функционал — насыщеннее.
Ключевые преимущества:
- Open Source: Полный доступ к коду, прозрачность работы.( я особо в этом не понимаю)
- Производительность: Работает стабильнее, без задержек ввода. (локальные вычисления)
- Гибкость: Поддержка экспериментальных настроек и кастомных промптов.
https://github.com/cjpais/Handy: Ссылка на репозиторий GitHub
Сердце системы: Модель Nvidia Parakeet V3
Самое важное — это модель, которая работает внутри. Я выбрал Nvidia Parakeet V3. При желании можно выбрать другие модели.
- Качество расшифровки: Честно говоря, я от этого без ума. Она распознает текст настолько точно, что минимизирует необходимость ручного редактирования. Даже лучше чем облачные решения от OpenAI
- Доступность: Модель также имеет открытый исходный код (open source).
- Производительность: Отлично оптимизирована для локального запуска.
Мой рабочий поток
Одна из киллер-фич Handy — возможность настройки горячих клавиш для разных сценариев. Я настроил два основных режима, которые закрыли 90% моих задач.
Режим 1: Быстрая расшифровка (В буфер и в поле ввода)
- Комбинация: Ctrl + Пробел
- Как работает: Я зажимаю комбинацию, диктую текст.
- Результат: Аудио мгновенно расшифровывается, текст попадает и в буфер обмена, и сразу в активное поле ввода.
- Зачем: Идеально для быстрого набора сообщений в мессенджерах или заметках.
Примечание: Я даже перестал пользоваться голосовым вводом в ИИ. Там нужно навести на экране на кнопку и держать, мне проще зажать 2 кнопки на клавиатуре
Режим 2: Агентская постобработка (AI-агент)
- Комбинация: Ctrl + Shift + Пробел
- Как работает: Диктую задачу, но текст не просто вставляется, а отправляется на обработку локальной модели (у меня работает связка с ollama).
- Результат: Агент обрабатывает запрос и возвращает готовый результат.
- Зачем: Мне не нужно постоянно открывать ChatGPT или новую ветку чата. Я могу прямо в поиске или в любом окне вызвать агента, сказать: «Напиши мне промпт для...» или «Сформулируй ответ...», и он сразу вернет готовый текст.
Использую эту фишку как: Говорю свой запрос и в конце добавляю ".. Напиши промпт" и Мне в поле ввода сразу выводится готовый промпт, который я обычно даже не дорабатываю.
Инструкция по установке
1. Скачивание: Перейдите на официальную страницу проекта. Ссылка: https://github.com/cjpais/Handy/releases - По ссылке полно различных исполнений для каждой системы для Windows (c intel или AMD) ищем **_x64-setup.exe
2. Установка модели: В настройках выберите раздел «Models» и загрузите Nvidia Parakeet V3. Важно: насколько помню для скачивания этой модели приходилось использовать VPN. Без скачивания модели приложение не откроет настройки
3. Настройка горячих клавиш:
Для транскрипции
- Зайдите в Общие->Горячая клавиша транскрипции->По умолчанию стоит Ctrl+Space
Для постобработки
- Откройте Продвинутые->Экспериментальные функции->Вкл
- Перейдите в низ списка в раздел Экспериментальное->Постобработка->Вкл
- Перейдите в появившийся раздел Постобработка->Горячая клавиши постобработки->По умолчанию стоит Ctrl+Shift+Space.
4. Интеграция с агентом: Если вы хотите использовать режим «Постобработки», убедитесь, что у вас запущена локальная LLM (например, через Ollama или LM Studio) или есть облачные API, и укажите соответствующий эндпоинт в настройках Handy.
5. Готово: Пользуйтесь крутым инструментом совершенно бесплатно
Заключение
Переход с Super Whisper на Handy оказался для меня вынужденным, но приятным шагом. Поддержка мощной модели Nvidia Parakeet и, главное, удобная работа с горячими клавишами сделали мой рабочий процесс значительно быстрее. Теперь я не теряю свои записи и не вынужден трижды диктовать свои мысли, а могу сделать это с первого раза, а также могу обрабатывать текст в любом окне системы.
Рекомендую попробовать, особенно если вы ищете приватное и быстрое решение для Speech-to-Text. Я активно пользуюсь данным приложением на протяжении одного месяца, и я просто в восторге.
Примечание: мои настройки на вкладке "Продвинутые"