2002 год в руках Nokia 3310 с функцией голосового набора номера. Именно так я и познакомился первый раз с возможностями преобразование голоса в определённое действие, в частности набор номера. С тех пор я периодически по мере потребности интересуюсь развитием данного направления.
Недавно мне понадобилось набрать приличное количество текста при этом я не большой специалист в печати вслепую. По этой причине я решил освежить информацию по вышеуказанному направлению и попробовать найти рабочий и бесплатный способ попытаться облегчить свою жизнь.
Проведя легкий анализ, я решил результаты отразить в этой статье. Данная статья выражает исключительно моё мнение, которое основано на поиске и попытках практического использования возможности голосового набора текста.
Итак, порывшись в интернете, я определил, что на момент написания статьи наиболее развитыми речевыми технологиями обладают всеми известные компании Google и Яндекс. Вполне возможно существуют ещё разработки в этом направлении, но либо я их не заметил либо данные разработки тем или иным образом связаны с продуктами вышеуказанных компаний. В частности в сети существуют приложения, плагины для браузеров, программы, работающие в связке с API Google или Яндекса. Возможности одни и те же только с различными интерфейсами. То есть они, никак не превзойдут возможности первоисточников, и время терять на них не хотелось. Если я всё-таки чего-то не заметил, прошу отразить это в комментариях.
Памятуя о том, что многоуважаемый Яндекс более специализирован на Рунете чем англоязычный Google я первым делом начал искать информацию о механизме надиктовки текста именно у него. В 2014 году Яндексом было выпущено приложение для мобильных устройств под названием Яндекс диктовка. Приложение позволяло набирать текст голосом и имело функции редактирования и дальнейшего его сопровождения. И главное всё на родном русском языке. К сожалению, на данный момент во все источниках анонсированных Яндексом данное приложение отсутствует. Информацию о дальнейшей судьбе приложения Яндекс диктовка я не нашёл.
Наиболее реальным и практичным в применении оказался голосовой набор текста интегрированный в Гугл документы.
Несмотря на то, что диктовку текста я производил на довольно-таки стареньком и бюджетном ноутбуке (HP 255), распознавание проходило довольно-таки хорошо. Управление голосовым набором интуитивно понятное и несложное. Скорость распознавания удовлетворительная, учитывая, что использовался мобильный 3G интернет, даже можно считать хорошей. Помимо самого голосового набора интерфейс Гугл документов с функциями редактирования и автосохранения изменений оказался кстати.
Но есть и недостатки. В частности отсутствует поддержка голосовых команд функций редактирования на русском языке. Попытки задействовать данные функции на английском ни к чему не привели. Скорее всего, виновато моё ярко выраженное сибирское произношение.:) В некоторых случаях отмечалось отображение запрашиваемых команд на английском языке. То есть интерпретация прошла успешно но почему то не преобразовалась в команду. Сама проблема различия голосовых команд и распознаваемого текста довольно таки интересна.
Чистота распознавания напрямую зависит от шумового фона. Чем больше посторонних шумов, тем хуже идёт распознавание. На определенном этапе я начал использовать обычную телефонную гарнитуру с встроенным микрофоном.
Функция распознавание речи привязана только к одному браузеру - Google Chrome. В других браузерах данная функция не активна. Памятуя, что Яндекс браузер и Опера последних версий имеют тот же движок что и Chrome, я попытался изменить User Agent у оперы, но фокус не удался. Скорее всего, данная функция является оригинальной для Chrome и ни с кем Google им делиться не хочет.
Подводя итог, скажу. Функций голосового ввода гугл документов вполне достаточно для чернового ввода текста с последующей ручной правкой. В сочетании с другими функциями Гугл документов функция голосового ввода выглядит логически завершенной и полноценной. Считаю что на данный момент это единственный рабочий вариант ввода текста голосом наиболее приближенный к реальным условиям. Отсутствие альтернативы, конечно, удручает, но когда, то и этого не было. .
Попутно затронул тему обратного преобразования текста в голос, но материал по этой теме подготовлю позднее. А вы чтобы не пропустить интересное подписывайтесь на мой канал.