Найти тему
DTI Algorithmic

Голосовые помощники: невероятная эволюция

Спойлер: история голосовых ассистентов начинается аж с конца 1930-х годов 🤖

История голосовых ассистентов начинается с конца 1930-х годов, когда ученые начали предпринимать попытки распознать голос силами технологий. Тогда созданию качественного помощника мешали две большие проблемы

  • существование омонимов — слов с одинаковым звучанием, но с разным значением,
  • постоянный шумовой фон, из которого система должна выбирать речь пользователя.

Сейчас для решения этих проблем разработчики используют машинное обучение. Оно учит нейронные сети самостоятельно анализировать контекст и эффективно определять основной источник звука. Однако пришли разработчики к этому не сразу — потребовалось как минимум 80 лет подготовительных работ:

1939 год. Советский физик Лев Мясников создал аппарат, способный распознавать человеческую речь — несколько гласных и согласных звуков.

1952 год. Сотрудники лаборатории Bell разработали механизм, который распознавал продиктованные по телефону числа от 1 до 9.

Первый голосовой распознаватель чисел, разработанный сотрудниками лаборатории Bell
Первый голосовой распознаватель чисел, разработанный сотрудниками лаборатории Bell

1962 год. Компания IBM представила собственную технологию распознавания речи — Shoebox. Машина распознавала 16 английских слов, 10 цифр и 6 арифметических команд.

Презентация системы распознавания речи Shoebox от IBM:

1980 год. Инженеры научились применять методы «Скрытой модели Маркова». Со временем это позволило голосовым системам лучше распознавать речь. Они обрабатывают слово, учитывая несколько предыдущих и предсказывая, что может с ними сочетаться.

Скрытая модель Маркова описывает генерацию случайных событий в зависимости от текущего состояния объекта. Пример: человек может находиться в одном из четырех состояний и не в каждое их них может перейти сразу (схема ниже). Например, если человек лежит, то он не может моментально пойти куда-либо — нужно сесть, встать и только потом идти:

Пример физических состояний человека, описанных в скрытой модели Маркова
Пример физических состояний человека, описанных в скрытой модели Маркова

1987 год. В США компания Worlds of Wonder начала продавать говорящую куклу Джулию, которая училась распознавать речь ребенка во время игры. В куклу был встроен процессор, который позволял ей реагировать и генерировать речь. Джули воспринимала восемь высказываний: «Джули», «да», «нет», «хорошо», «притворяйся», «голодна», «пой» и «молчи».

Реклама интерактивной игрушки — куклы «Джули»:

1990-е годы. Появилась коммерческая программа Dragon Dictate, ориентированная на массовый рынок. Она распознавала речь и записывала надиктованный текст в файл.

1996 год. Появилось полноценное голосовое меню VAL от BellSouth. Система обрабатывала телефонные справочные запросы и помогала покупателям в поиске нужной информации об интересующих товарах.

Позже компания запустила Info by Voice — интерактивные голосовые «желтые страницы» с информацией о ближайших ресторанах, такси и некоторых магазинах. Система также могла рассказать о новостях и котировках акций, погоде, телепрограмме, гороскопе и спортивных событиях.

2001 год. Компания Microsoft добавила голосовой ввод текста в офисный пакет Office XP.

2002 год. Google запустил Voice Search — сервис для голосового поиска в интернете. Проект приостановили из-за неудобства использования — чтобы выполнить поиск, надо было позвонить на специальный номер. На Voice Search основан современный интерактивный помощник компании — Google Assistant.

2007 год. Центр исследования искусственного интеллекта SRI International начал разработку Siri. Siri стала первой голосовой помощницей — система умела не только искать информацию в интернете или работать как голосовое меню, но и вести с пользователем диалог.

2011-2014 годы. Google интегрировал функцию голосового поиска в браузер Chrome. Компания также запустила персонализированного ассистента Google Now с расширенными возможностями голосового поиска — сервис подбирал актуальную информацию с учетом местоположения пользователя, истории браузера и других поисковых запросов.

У Microsoft также появилась собственная виртуальная голосовая помощница — Cortana. Ее назвали в честь персонажа из игровой серии шутеров Halo. Фразы для него записала актриса озвучки Джен Тейлор, озвучившая Кортану в игре.

2014 год. Amazon представил первую в мире умную колонку Amazon Echo с голосовой ассистенткой Alexa. Она была вдохновлена компьютерной голосовой и диалоговой системой на борту Starship Enterprise в научно-фантастических сериалах и фильмах вселенной «Star Trek»

Колонка с голосовым ассистентом — Amazon Echo
Колонка с голосовым ассистентом — Amazon Echo

2017 год. Alibaba представила умную колонку Tmall Genie с голосовым помощником AliGenie.

2018 год. Яндекс выпустил умную колонку Яндекс.Станция с голосовой помощницей Алисой.

2019 год. Банк «Тинькофф» запустил собственного голосового ассистента «Олега». Mail.Ru Group представила голосовую помощницу «Марусю».

Это — первая часть нашей серии материалов про голосовых помощников. Если вам понравилось — нажмите 👍🏻, нам будет приятно!

И оставайтесь с нами:)