Найти в Дзене
У Тёмыча

Голосовой набор текста анализ возможностей на 2019 год

2002 год в руках Nokia 3310 с функцией голосового набора номера. Именно так я и познакомился первый раз с возможностями преобразование голоса в определённое действие, в частности набор номера. С тех пор я периодически по мере потребности интересуюсь развитием данного направления.

Недавно мне понадобилось набрать приличное количество текста при этом я не большой специалист в печати вслепую. По этой причине я решил освежить информацию по вышеуказанному направлению и попробовать найти рабочий и бесплатный способ попытаться облегчить свою жизнь.

Проведя легкий анализ, я решил результаты отразить в этой статье. Данная статья выражает исключительно моё мнение, которое основано на поиске и попытках практического использования возможности голосового набора текста.

Итак, порывшись в интернете, я определил, что на момент написания статьи наиболее развитыми речевыми технологиями обладают всеми известные компании Google и Яндекс. Вполне возможно существуют ещё разработки в этом направлении, но либо я их не заметил либо данные разработки тем или иным образом связаны с продуктами вышеуказанных компаний. В частности в сети существуют приложения, плагины для браузеров, программы, работающие в связке с API Google или Яндекса. Возможности одни и те же только с различными интерфейсами. То есть они, никак не превзойдут возможности первоисточников, и время терять на них не хотелось. Если я всё-таки чего-то не заметил, прошу отразить это в комментариях.

Памятуя о том, что многоуважаемый Яндекс более специализирован на Рунете чем англоязычный Google я первым делом начал искать информацию о механизме надиктовки текста именно у него. В 2014 году Яндексом было выпущено приложение для мобильных устройств под названием Яндекс диктовка. Приложение позволяло набирать текст голосом и имело функции редактирования и дальнейшего его сопровождения. И главное всё на родном русском языке. К сожалению, на данный момент во все источниках анонсированных Яндексом данное приложение отсутствует. Информацию о дальнейшей судьбе приложения Яндекс диктовка я не нашёл.

Наиболее реальным и практичным в применении оказался голосовой набор текста интегрированный в Гугл документы.

Снимок с экрана - Интерфейс на диктовки текста голосом в Гугл документах
Снимок с экрана - Интерфейс на диктовки текста голосом в Гугл документах

Несмотря на то, что диктовку текста я производил на довольно-таки стареньком и бюджетном ноутбуке (HP 255), распознавание проходило довольно-таки хорошо. Управление голосовым набором интуитивно понятное и несложное. Скорость распознавания удовлетворительная, учитывая, что использовался мобильный 3G интернет, даже можно считать хорошей. Помимо самого голосового набора интерфейс Гугл документов с функциями редактирования и автосохранения изменений оказался кстати.

Но есть и недостатки. В частности отсутствует поддержка голосовых команд функций редактирования на русском языке. Попытки задействовать данные функции на английском ни к чему не привели. Скорее всего, виновато моё ярко выраженное сибирское произношение.:) В некоторых случаях отмечалось отображение запрашиваемых команд на английском языке. То есть интерпретация прошла успешно но почему то не преобразовалась в команду. Сама проблема различия голосовых команд и распознаваемого текста довольно таки интересна.

Чистота распознавания напрямую зависит от шумового фона. Чем больше посторонних шумов, тем хуже идёт распознавание. На определенном этапе я начал использовать обычную телефонную гарнитуру с встроенным микрофоном.

Функция распознавание речи привязана только к одному браузеру - Google Chrome. В других браузерах данная функция не активна. Памятуя, что Яндекс браузер и Опера последних версий имеют тот же движок что и Chrome, я попытался изменить User Agent у оперы, но фокус не удался. Скорее всего, данная функция является оригинальной для Chrome и ни с кем Google им делиться не хочет.

Подводя итог, скажу. Функций голосового ввода гугл документов вполне достаточно для чернового ввода текста с последующей ручной правкой. В сочетании с другими функциями Гугл документов функция голосового ввода выглядит логически завершенной и полноценной. Считаю что на данный момент это единственный рабочий вариант ввода текста голосом наиболее приближенный к реальным условиям. Отсутствие альтернативы, конечно, удручает, но когда, то и этого не было. .

Попутно затронул тему обратного преобразования текста в голос, но материал по этой теме подготовлю позднее. А вы чтобы не пропустить интересное подписывайтесь на мой канал.