Найти в Дзене

Печатать пальцами стало дорого. Что изменили нейросети в голосовом вводе?

Много ли вы набираете текстов на компьютере и смартфоне? Я - да: - Описываю сотрудникам задачи в Битрикс; - 90% коммуникаций - текстовые, через мессенджеры; - Занимаюсь исследованиями - перерабатываю и систематизирую тонны информации. Теперь вот еще соцсети добавились. На ноутбуке я печатаю достаточно быстро, на смартфоне - терпеть этого не могу. Печатать пальцами стало дорого. Что изменили нейросети в голосовом вводе? Ниже поделюсь результатом экспериментов, находками и замерами результатов. Для описания каждого сервиса я буду использовать его же. Без корректировок, в идеальных условиях тихого кабинета, через штатный микрофон MacBook Pro: 🎙Стандартный голосовой ввод MacBook / iPhone Самое простое решение которое лежит на поверхности до появления нейросетевых инструментов я много раз пробовал пользоваться именно вводом Apple но как показал практика на заправки редактирование потом уходят больше времени чем из начальный ввод текста при даже средней скорости печати с клавиатуры он по

Много ли вы набираете текстов на компьютере и смартфоне?

Я - да:

- Описываю сотрудникам задачи в Битрикс;

- 90% коммуникаций - текстовые, через мессенджеры;

- Занимаюсь исследованиями - перерабатываю и систематизирую тонны информации.

Теперь вот еще соцсети добавились.

На ноутбуке я печатаю достаточно быстро, на смартфоне - терпеть этого не могу. Печатать пальцами стало дорого. Что изменили нейросети в голосовом вводе?

Ниже поделюсь результатом экспериментов, находками и замерами результатов.

Для описания каждого сервиса я буду использовать его же. Без корректировок, в идеальных условиях тихого кабинета, через штатный микрофон MacBook Pro:

🎙Стандартный голосовой ввод MacBook / iPhone

Самое простое решение которое лежит на поверхности до появления нейросетевых инструментов я много раз пробовал пользоваться именно вводом Apple но как показал практика на заправки редактирование потом уходят больше времени чем из начальный ввод текста при даже средней скорости печати с клавиатуры он подходит для того чтобы быстро наговорить сообщения в Telegram но не для работы с текстами кроме того он дает очень большие ошибки и искажения при наличии каких-то посторонних звуков и помех.

Особую радость доставляет проговаривание голосом: “точка”, “тире”, “точка”.

🎙SuperWhisper

Это уже нейросетевое решение. Работает по принципу "push to talk", то есть нажимаем кнопку, говорим, отпускаем кнопку. На месте курсора появляется то, что мы только что наговорили.

Можно скачать модель ИИ локально, и тогда вся обработка голоса будет происходить независимо от интернет-соединения прямо на компьютере, если он вывезет.

Из плюсов огромное количество моделей распознавания на выбор и огромное количество тонких настроек. Минусы, как ни странно, те же самые. Для того, чтобы его настроить, нужно потратить время. Но работать он при этом будет неплохо.

🎙Willow Voice

На текущий момент я остановился на нем. Работает быстро, дает достаточно хорошее качество распознавания, которое можете увидеть в этом тексте. Также есть локальная модель для распознавания, которая работает прямо у вас на компьютере, но ощутимо хуже.

Принципиальное отличие от Super Whisper, это простота использования. Не нужно подбирать модель и экспериментировать, запустил и поехал. Настройки есть только самые необходимые. Также под тем же аккаунтом можно поставить виртуальную голосовую клавиатуру на смартфон. И быстро голосом набирать сообщения в мессенджерах, это отличная альтернатива ботам-транискрибаторам. Очень устойчив к помехам. Я его использую даже на макбуке без внешнего микрофона в публичном месте. Речь распознается хорошо.

Из нюансов - он платный, как впрочем и Super Whisper и вообще все хорошее в этом мире.

Оба приложения имеют версии для MacOS, Windows, iOS. В процессе своих изысканий я пробовал и другие, но не смог заставить их работать нормально за выделенное на эти эксперименты время.

Зачем так заморачиваться?

А вот зачем:

Средняя скорость моей печати пальцами: 43 слова в минуту (измерил).

Средняя скорость голосового ввода: 88 слов в минуту (статистика Willow).

За полтора месяца использования голосового ввода:

Надиктовано слов: 65422 (статистика Willow)

Печатал бы руками: 1521 минуту или 25 часов

Через голосовой ввод - 743 минуты или 12,4 часа

Результат:

⚠️ Заработано: 12,6 часов. Полноценный выходной день.

А теперь давайте распределим стоимость сервиса на высвобожденное время и посчитаем порог окупаемости (грубо):

Подписка Willow Voice - 15 USD в месяц. Эксперимент длился 45 дней.

(15 USD / 30 дн * 45 дн) / 12,6 ч = 1,8 USD в час. При курсе 80 это приблизительно 144 рубля.

То есть себестоимость одного высвобожденного часа времени при таких вводных - 144 рубля.

Будем сравнивать со стоимостью своего часа?