Спойлер: история голосовых ассистентов начинается аж с конца 1930-х годов 🤖
История голосовых ассистентов начинается с конца 1930-х годов, когда ученые начали предпринимать попытки распознать голос силами технологий. Тогда созданию качественного помощника мешали две большие проблемы
- существование омонимов — слов с одинаковым звучанием, но с разным значением,
- постоянный шумовой фон, из которого система должна выбирать речь пользователя.
Сейчас для решения этих проблем разработчики используют машинное обучение. Оно учит нейронные сети самостоятельно анализировать контекст и эффективно определять основной источник звука. Однако пришли разработчики к этому не сразу — потребовалось как минимум 80 лет подготовительных работ:
1939 год. Советский физик Лев Мясников создал аппарат, способный распознавать человеческую речь — несколько гласных и согласных звуков.
1952 год. Сотрудники лаборатории Bell разработали механизм, который распознавал продиктованные по телефону числа от 1 до 9.
1962 год. Компания IBM представила собственную технологию распознавания речи — Shoebox. Машина распознавала 16 английских слов, 10 цифр и 6 арифметических команд.
Презентация системы распознавания речи Shoebox от IBM:
1980 год. Инженеры научились применять методы «Скрытой модели Маркова». Со временем это позволило голосовым системам лучше распознавать речь. Они обрабатывают слово, учитывая несколько предыдущих и предсказывая, что может с ними сочетаться.
Скрытая модель Маркова описывает генерацию случайных событий в зависимости от текущего состояния объекта. Пример: человек может находиться в одном из четырех состояний и не в каждое их них может перейти сразу (схема ниже). Например, если человек лежит, то он не может моментально пойти куда-либо — нужно сесть, встать и только потом идти:
1987 год. В США компания Worlds of Wonder начала продавать говорящую куклу Джулию, которая училась распознавать речь ребенка во время игры. В куклу был встроен процессор, который позволял ей реагировать и генерировать речь. Джули воспринимала восемь высказываний: «Джули», «да», «нет», «хорошо», «притворяйся», «голодна», «пой» и «молчи».
Реклама интерактивной игрушки — куклы «Джули»:
1990-е годы. Появилась коммерческая программа Dragon Dictate, ориентированная на массовый рынок. Она распознавала речь и записывала надиктованный текст в файл.
1996 год. Появилось полноценное голосовое меню VAL от BellSouth. Система обрабатывала телефонные справочные запросы и помогала покупателям в поиске нужной информации об интересующих товарах.
Позже компания запустила Info by Voice — интерактивные голосовые «желтые страницы» с информацией о ближайших ресторанах, такси и некоторых магазинах. Система также могла рассказать о новостях и котировках акций, погоде, телепрограмме, гороскопе и спортивных событиях.
2001 год. Компания Microsoft добавила голосовой ввод текста в офисный пакет Office XP.
2002 год. Google запустил Voice Search — сервис для голосового поиска в интернете. Проект приостановили из-за неудобства использования — чтобы выполнить поиск, надо было позвонить на специальный номер. На Voice Search основан современный интерактивный помощник компании — Google Assistant.
2007 год. Центр исследования искусственного интеллекта SRI International начал разработку Siri. Siri стала первой голосовой помощницей — система умела не только искать информацию в интернете или работать как голосовое меню, но и вести с пользователем диалог.
2011-2014 годы. Google интегрировал функцию голосового поиска в браузер Chrome. Компания также запустила персонализированного ассистента Google Now с расширенными возможностями голосового поиска — сервис подбирал актуальную информацию с учетом местоположения пользователя, истории браузера и других поисковых запросов.
У Microsoft также появилась собственная виртуальная голосовая помощница — Cortana. Ее назвали в честь персонажа из игровой серии шутеров Halo. Фразы для него записала актриса озвучки Джен Тейлор, озвучившая Кортану в игре.
2014 год. Amazon представил первую в мире умную колонку Amazon Echo с голосовой ассистенткой Alexa. Она была вдохновлена компьютерной голосовой и диалоговой системой на борту Starship Enterprise в научно-фантастических сериалах и фильмах вселенной «Star Trek»
2017 год. Alibaba представила умную колонку Tmall Genie с голосовым помощником AliGenie.
2018 год. Яндекс выпустил умную колонку Яндекс.Станция с голосовой помощницей Алисой.
2019 год. Банк «Тинькофф» запустил собственного голосового ассистента «Олега». Mail.Ru Group представила голосовую помощницу «Марусю».
Это — первая часть нашей серии материалов про голосовых помощников. Если вам понравилось — нажмите 👍🏻, нам будет приятно!
И оставайтесь с нами:)