Добавить в корзинуПозвонить
Найти в Дзене
AIматизация

Ускоряем печать, переходя на голос

Судя по трендам в X, Threads и GitHub, текущий месяц стал месяцем разработки собственных инструментов автоматизации голосового ввода. Каждый уважающий себя разработчик (и не только) написал собственную «диктовалку» и гордо выложил её в открытый доступ 🙂 Однако завайбкодить своё и иметь на выходе качественный продукт - это далеко не одно и то же. И если вас интересует в первую очередь второе - то эта статья для вас. Сегодня хочу рассказать про WhisprFlow - инструмент, по праву считающийся №1 среди бесчисленного множества инструментов подобного типа. Основная функция, как и у всех альтернатив - это возможность печатать текст в любое поле ввода в любом месте, просто наговаривая его вслух на естественном языке. Система в реальном времени распознает сказанное и переводит это в текст, кратно повышая скорость коммуникации, что особенно важно при взаимодействии с ИИ-агентами, где самым медленным звеном являешься ты сам 🙂 Многие сейчас строят собственные аналоги или используют бесплатные

Ускоряем печать, переходя на голос

Судя по трендам в X, Threads и GitHub, текущий месяц стал месяцем разработки собственных инструментов автоматизации голосового ввода. Каждый уважающий себя разработчик (и не только) написал собственную «диктовалку» и гордо выложил её в открытый доступ 🙂

Однако завайбкодить своё и иметь на выходе качественный продукт - это далеко не одно и то же.

И если вас интересует в первую очередь второе - то эта статья для вас.

Сегодня хочу рассказать про WhisprFlow - инструмент, по праву считающийся №1 среди бесчисленного множества инструментов подобного типа.

Основная функция, как и у всех альтернатив - это возможность печатать текст в любое поле ввода в любом месте, просто наговаривая его вслух на естественном языке. Система в реальном времени распознает сказанное и переводит это в текст, кратно повышая скорость коммуникации, что особенно важно при взаимодействии с ИИ-агентами, где самым медленным звеном являешься ты сам 🙂

Многие сейчас строят собственные аналоги или используют бесплатные opensource решения, которые работают через локальную библиотеку Whisper, которую OpenAI выложил в открытый доступ ещё в 22 году. И это имеет смысл, если вы хотите сэкономить, или, что особенно важно в бизнесе - не хотите, чтобы данные покидали ваш корпоративный контур.

Но для большинства людей это может быть технически сложно и избыточно, и хотелось бы просто использовать готовое универсальное решение из коробки. И именно им является WhisprFlow - кросс-платформенная утилита, которая работает на любом устройстве, включая мобильные на iOS и Android (кстати, на андроид интеграция максимально нативная и бесшовная).

И ключевой особенностью, которой нет пока что у бесплатных опенсорс аналогов (по крайней мере, на таком уровне) является адаптивность системы под контекст приложения. Текст автоматически стилизуется под стиль приложения, в котором происходит диктовка, и это можно дополнительно настраивать. В whatsapp или телеграм это будет неформальный и живой формат, в почте - более взвешенный и с деловым этикетом, в Word и Google Docs - предельно чёткий и структурированный.

Кроме того, из текста будут автоматически вырезаны все слова-паразиты и речевые обороты, хоть и приемлемые в живом диалоге, но некорректные для письменного стиля. И именно эта постобработка, при этом происходящая мгновенно в реальном времени, в сочетании с возможностью стилизации текста и общей скоростью работы транскрипции - делает WhisprFlow (на мой субъективный взгляд) наиболее сильным продуктом в данный момент, не имеющим (пока) качественных аналогов (если у вас другое мнение на этот счёт - расскажите в комментах). А ещё он отлично распознает имена и специфичные термины, с чем есть проблемы у всех остальных сервисов, использующих голый Whisper под капотом, без доп. обработки и словарей.

Что касается стоимости - для многих может хватить бесплатного тарифа, включающего 2000 слов в неделю на компьютере и 1000 слов на iPhone. А на Android сейчас вообще пока временно бесплатный тариф без ограничений. А полноценный платный тариф начинается от €12 в месяц.

В общем, подводя итог - пользуюсь сам и рекомендую. Хотя у меня есть и локально установленный Whisper, и бесплатная сверхбыстрая real-time транскрипция через Groq, которые использую для агентов Hermes / OpenClaw и саммаризации звонков и онлайн-встреч. Но пока для обычных повседневных задач выбираю WisprFlow за его умность и адаптивность.