1 подписчик

Какое будущее таится за голосовыми помощниками

6 августа 20216 авг 2021

7 мин

Осознаёте ли вы, что совсем скоро нам будет сложно представить жизнь без голосовых помощников? Мир, в котором нам не потребуется делать, что-либо по дому, уже не за горами, совсем скоро голосовой помощник сможет избавить нас от большинства рутинных дел, но это лишь часть преимуществ. Представьте, что операторы банков исчезнут, а вместо них будет нейронная сеть, которую вы будете не в силах отличить от человека, представьте, что вам не потребуются ключи от машины и банковские карты, потому что все будет зарегистрировано на ваш голос, и вы сможете получать доступ только благодаря этому. Об этом и будет наша статья. Как вы для себя отвечаете на вопрос: что такое голосовой помощник? Штука, которая знает много несмешных анекдотов? Приложение, в которое может подсказать время, когда лень открывать телефон? Или хрень, которая постоянно случайно нажимается (привет владельцам Андроид) В целом конечно даже такое представление примерно верное, если говорить совсем коротко и просто, то голосов

Представьте, что операторы банков исчезнут, а вместо них будет нейронная сеть, которую вы будете не в силах отличить от человека, представьте, что вам не потребуются ключи от машины и банковские карты, потому что все будет зарегистрировано на ваш голос, и вы сможете получать доступ только благодаря этому. Об этом и будет наша статья.

Как вы для себя отвечаете на вопрос: что такое голосовой помощник? Штука, которая знает много несмешных анекдотов? Приложение, в которое может подсказать время, когда лень открывать телефон? Или хрень, которая постоянно случайно нажимается (привет владельцам Андроид) В целом конечно даже такое представление примерно верное, если говорить совсем коротко и просто, то голосовой помощник или правильнее голосовой ассистент — это программное обеспечение на устройстве, цель которого разгрузить рутинные процессы.

Но какой принцип работы у всех этих ассистентов? Чтобы пользователь получил ответ, программа проходит пять этапов

1. Убирает фоновый шум, после того как услышала ваш голос

2. Преобразует звук в цифровой код.

3. Далее, выделяет речь, анализирует отдельные слова и связь между ними.

4. Сравнивает полученную информацию с шаблонами. Система ищет варианты, как слово произносится. Если слово, например, новое она так же сравнивает его с шаблонами. Когда голосовой помощник не может найти ответ, то есть не понимает команду, которую вы хотите до нее донести, то просит пользователя задать вопрос по-другому.

5. Выдаёт ответ, ориентируясь на библиотеку шаблонов и поведение пользователя в сети, на его прошлые запросы в поисковых системах, геолокацию и тд.

Как в мире, так и в России уже давно появились виртуальные ассистенты, которые с каждым днем становиться умнее.

Наверное, самым известным голосовым помощником на западе является Alexa от Amazon, купить колонку такую колонку можно и у нас, но русский язык, к сожалению, на данной платформе не поддерживается, хотя ломаный английский довольно неплохо распознается. Возможно, кому-то даже поможет подучить английский язык.

C ним было довольно много забавных случаев и самый частым багом был смех. С виду, конечно, ничего такого, но только представьте, что вы живете один в квартире, и на всю вашу кровную жил площадь, ночью раздается злорадный смех? Так и в штаны наложить можно, учитывая, что звук у колонок не плохой, да и тем более вы еще следующие пару дней будете думать, что эта была за хрень, т.к. на ассистента не подумаете, да вроде и скайнет со своим захватом не объявлялся

От гугла есть Google Assistant, которым можно управлять в нескольких приложениях. В остальном функционал такой же как и у всех.

От Apple выступает всем известная Siri, которая хорошо оптимизирована под русский. От Яндекса это Алиса, которая является лидером рынка в России.

У всех этих голосовых ассистентов примерно одинаковый функционал, везде можно выполнить несложные манипуляции. В большей степени смысл всех этих виртуальный голосовых помощников заключается в том, чтобы облегчить задачи/

Однако еще 50 лет назад, скажи кто-кто, что в скором времени появится возможность разговаривать с компьютером и получать от него вполне похожие ответы на человечески — полагаю ему бы просто не поверили.

Во всяком случае, в наше время этим уже никого не удивишь. Голосовые помощники, являясь очевидным следствием развития искусственного интеллекта, если быть точнее принципа машинного обучения — призваны облегчать жизнь людям, выполняя задачи, которые объективно можно назвать рутинными. Узнать погоду, выключить свет, набрать другу, включить чайник. Для всего это теперь нет необходимости производить физическую работу, и за все это мы благодарны технологии распознавания голоса.

Нейросеть, являясь математической моделью, построенной по принципу функционирования сетей нервных клеток живого организма, создана с целью обучаться. Что я имею в виду? Сейчас постараюсь объяснить.

Вы когда-нибудь задумывались откуда вы знаете русский язык? Откуда вы знаете, как звучат слова, и что они вообще означают? Очевидно, что каждый носитель родного языка, с детства имел с ним дело, так или иначе слыша, как на нем разговаривают. В последствии пытаясь повторить, и в конце концов начиная использовать ранее неизвестные слова, на ежедневной основе. Перед нейросетью стояла похожая задача. Научиться понимать слова, а если говорить точнее — научиться интерпретировать их в команды двоичного кода. Нейросеть голосовых помощников обучалась распознавать голос так же, как это делает человеческий мозг. На примере миллионов разнообразных произношений одних и тех же слов, букв, и звуков, находя в них сходство и пытаясь вывести отличительные черты присуще каждому слову отдельно.

Здесь можно упомянуть интересный пример от чат бота Тинькова — Олега

Поддержка у Тинькова довольно лояльная, а сами люди не очень. Все знают грубые примеры общения в чате со специалистом поддержки. Вот именно на плохих и грубых высказываниях Олег научился строить свои ответы, потом было довольно много негативных отзывов, что в чате он отвечает откровенным хамством на хамство, но мораль всей басни такова, что этому он научился от людей, но лично люди, его такому не учили.

Еще был забавный случай с ботом от Microsoft, который учился на открытых данных. Компания запустила проект Tay B Twitter - и знаете, что произошло за первые сутки? Всего одного дня боту хватило, чтобы научиться расизму, но это не все, сразу после этого он стал обвинять власти США в организации терактов 11 сентября.

Но конечно же как в случае с Тиньковом, так и в случае с Microsoft все это скоро пофиксили. Но суть этих историй в том, что совсем скоро боты/голосовые помощники смогут стать Полноценными не физическими людьми (в кавычках).

Сейчас развитие голосовых помощников находиться на детском уровне, местами и меньше.

Виртуальный помощник вскоре заменит и операторов в службах поддержки. По большому счету он уже достаточно хорошо работает по функционален, переводя клиентов только в сложных случаях, но как правило до них не доходит, ведь люди просто не слушают голос бота, ведь куда приятнее пообщаться с настоящим человеком, поднадоесть и выяснить все вопросы. Но уже совсем скоро голосовой ассистент нельзя будет отличить по голосу от настоящего человека, правильные ударения интонация сделают свое дело в два счёта.

Но самым главным прорывом будет полностью функционирующий домашний ассистент. Уже сейчас можно сделать себе умный дом, включать чайник голосом и делать уборку и так далее, но есть очень тонкая грань, которую позволит перейти нейронная сеть.

Представьте, что голосовой помощник с момента его покупки будет учиться и привыкать вам, он будет знать когда вы в злости, когда расстроены, сможет прочитать всю вашу переписку, чтобы скажем дать совет не париться из-за девушки, все это ему позволит узнать ваш пульс, интонация голоса, скорость ответа, построение предложений и многое другое. Тонкая грань между условным другом и голосовым помощников будет пройдена, теперь вы общаетесь не с голосовым помощником, а будто бы с настоящим человеком, который пытается вас подбодрить, когда вам грустно и ведет настоящий диалог.

Но почему все это именно в аудио формате, может было куда лучше, чат-бот или видео? Cовсем нет.

Почему именно аудио-формат? Есть два ответа, начнем с технического, в среднем человек говорит в 4 раза быстрее чем печатает, а это значит, что давать задачи, печатать сообщения и в целом что-либо делать в устройствах, куда быстрее голосом, если есть конечно возможность, да и в целом, чтобы залезть в телефон нужно заниматься только этим, убираться, ремонтировать что-либо и переносить в это время физически не получиться. Второй вариант более романтический, нам, в большинстве своем, приятнее воспринимать аудио формат, многие даже фильмы не смотрят, а слушают. Да и в целом общение голосом, происходит проще, когда мы не видим человека.

Но если искусственный интеллект станет выражать свои мысли (если можно так сказать), не только устно, сможет ли он нарисовать картину, таким образом изобразив свои мысли? Да сможет это все уже делают нейронные сети, вот смотрите, а у Алисы вы можете уже сейчас попросить что-нибудь нарисовать.

Это и многое другое будет делаться на основе данных, которые уже есть мире, музыка, картины ваши предпочтения. А сможет ли нейронная сеть себя нарисовать? Возможно, но это будет в некотором смысле ложь, она нарисует себя примерно так, как вы представляете ее.

Благодаря такому голосовому ассистенту мы избавимся от кучи вещей, которые сейчас нам необходимы, пропадет большое количеству клавиатур, мышек и тд.

Но конечно же, нейронные сети не смогут до конца восполнить функционал человека, при общении где-то будут возникать пробелы, которым сети только предстоит научиться, другое дело искусственный интеллект. Тогда уже любой ассистент сможет превратиться, в вашего друга, помощника и, возможно, даже в любовь. Но это тема для другой статьи!