Найти тему
Современный мир

Чему Сири может научиться у Таноса

Чтобы позаимствовать у Дж.Р.Р. Толкина, голосовые помощники, такие как Siri, Alexa, Cortana и Google, все стремятся быть немного похожими на Саурона из «Властелина колец». Если вы отгоняете все их различные методологии, они в конечном итоге сводятся к следующему: одно кольцо (или, если хотите, один ИИ), чтобы управлять ими всеми, и в темноте связать их.

То есть каждый голосовой помощник конкурирует за то, чтобы быть вашим единственным голосовым помощником, через который вы перенаправляете все свои запросы. Поэтому, если вы хотите использовать Amazon Echo для отключения интеллектуальных источников света Philips Hue, вы говорите что-то вроде «Alexa, выключите свет в моей гостиной», и за кадром Alexa переводит запрос и направляет команду Philips в формат, который тот может понять.

Начиная с iOS 12, Siri также работает таким образом. С помощью Siri Shortcuts вы можете настроить макрос так, чтобы, например, когда вы говорите: «Эй, Сири, играй «Как это получилось», автоматически начинается воспроизводиться последний эпизод подкаста «Как это получилось»? в вашем приложении подкаста выбора. И даже не устанавливая ярлык, вы можете использовать Siri почти как голосовую командную строку, чтобы сказать что-то вроде: «Эй, Siri, используя черновики, создай черновик в папке
«Входящие» с помощью буфера обмена, и он сохранит содержимое буфера обмена в новый документ в черновиках.

На первый взгляд, для нас это разумный способ взаимодействия с нашими устройствами с помощью голоса. Если мы хотим управлять нашим телефоном с помощью нашего голоса, имеет смысл только дать ему такое человеческое имя, как Сири, поговорить с ним как с человеком и попросить его делать то, что мы хотим, верно?

Я бы сказала, что последние три десятилетия разработки пользовательского интерфейса доказали нам, что это не естественно. И причина, по которой голосовые помощники были относительно медленными, чтобы понять что-либо, кроме самых простых задач, заключается в том, что мы еще не думаем о диалоговых пользовательских интерфейсах (UI) в правильном направлении.

Чтобы заимствовать еще одну вызывающую аналогию: вместо того, чтобы думать, как Саурон, нам нужно начать думать, как Танос. Вместо того, чтобы использовать одно кольцо, чтобы управлять ими всеми, нам нужно обращаться с нашими голосовыми помощниками, так как с «Камнями бесконечности», и обладать как можно большим количеством сразу.

За голосовой помощник? Силиконовая долина любит, чтобы мы воспринимали их как сексуальных ИИ, которые живут в наших телефонах, но, это всего лишь современные итерации самых старых и простых пользовательских интерфейсов в вычислительной технике. Они объединены в средства речевой транскрипции и представляют собой командные строки 21-го века: текстовые поля ввода, подобные тем, которые используются в Unix и дисковой операционной системе (DOS), которые позволяют нам давать инструкции нашим компьютерам. Когда они впервые начали появляться в середине 1960-х годов, командные строки были одним из первых способов, которыми пользователи могли давать инструкции своим компьютерам без непосредственного их кодирования. Командные строки были революционными — вместо того, чтобы заставлять нас говорить с нашими компьютерами в единицах и нулях, мы могли внезапно говорить с ними, используя синтаксис, подобный естественному языку.

На что бы вы предпочли поставить свою жизнь? Бросок монеты или способность Сири сыграть определенный альбом в Apple Music по первой команде?

Похожи, но не идентичны. Введите «delete word.doc» в старое приложение DOS, и оно ничего не сделает; введите «del word.doc», и он будет знать, что вы хотите. И чем сложнее действие, которое вы хотели выполнить, тем больше вам нужно было свободно разбираться в точном синтаксисе, который искала командная строка, иначе он выдал бы ошибку. Это должно звучать знакомо любому, кто когда-либо просил Сири, скажем, назначить встречу в своем календаре на третий вторник ноября, чтобы посетить своего врача по конкретному адресу в период с 9:15 до 9:35 ... или действительно, любой другой команде это не так просто.

Другими словами, командные строки были своего рода худшим из всех подходов к тому, как мы говорим с компьютерами, эсперанто эпохи ASCII. Команды, которые вы ввели, выглядели как английские, но это не так. Вместо этого вы могли бы только свободно перемещаться по командной строке через много запоминания, проб и ошибок.

Это хорошее описание пользовательского опыта наших голосовых помощников тоже. Мало кто из нас действительно «свободно» заставляет таких, как Сири или Алекса, делать что-то, кроме самых простых задач. Вместо этого мы ошибаемся в наших взаимодействиях с этими невидимыми ИИ, пока, наконец, не выясним, какой синтаксис он ожидает от нас, или мы не сдадимся. (или если вы не согласны с тем, что это так плохо, спросите себя: на что бы вы предпочли поставить свою жизнь? Бросок монеты или способность Сири сыграть определенный альбом в Apple Music по первой команде?)

Это, по сути, странная долина диалоговых интерфейсов. Они звучат как люди, они говорят, как люди, и у них есть человеческие имена, но мы не можем понимать друг друга как люди. Вот почему командные строки в конечном итоге потеряли популярность и были заменены операционными системами на основе графического интерфейса пользователя, такими как Windows и macOS. В этих операционных системах отдельные приложения со своими собственными специально разработанными интерфейсами могут работать бок о бок, каждое из которых выполняет свою задачу: обработку текста, электронные таблицы, просмотр фильмов и т. д. Поняв, что наши компьютеры плохо понимают нас как обычно, мы словно разработали графический интерфейс пользователя (GUI), чтобы стать коммуникационной платой. Просто указав или щелкнув по взаимно понятному символу, мы и наши компьютеры могли бы прийти к согласию относительно того, чего мы пытались достичь.

Возможно, разработчикам диалоговых пользовательских интерфейсов пора научиться чему-то из упадка командной строки, прежде чем мы откажемся от наших голосовых помощников (или переведем их в относительную безвестность) как идею раньше времени. Но чтобы достичь этого, компаниям Силиконовой долины придется преодолеть свою одержимость созданием единого голосового помощника, который будет править ими всеми, и вместо этого использовать более разнообразный подход, подобный приложению.

Проблема с ожиданием, что подобные Алекса или Кортана поймут нас как человека, состоит в том, что даже люди не очень хорошо следуют инструкциям друг друга. Вот почему мы не просим нашего почтальона дать нам ипотеку, починить туалеты, установить ловушки для мышей и диагностировать наши слабости. Мы призываем банкира, сантехника, истребителя и доктора для этих вещей, потому что мы понимаем, что не стоит ожидать, что какой-то один человек будет экспертом в каждой области.

Так почему же мы ожидаем большего от наших голосовых помощников? Сири и Алекса не должны быть ИИ «мастер на все руки». Они должны быть невидимыми операторами, перенаправляя наши звонки голосовым помощникам, специально разработанным для того, чтобы заниматься с нами задачами, которые мы пытаемся выполнить. Поэтому, когда нам нужно отправить арендную плату, мы не ожидаем, что Сири будет знать, как это сделать, - мы говорим: «Эй, Венмо, отправь 2000 долларов моему арендодателю». Разве это не имеет больше смысла, когда мы хотим найти номер телефона в нашей электронной почте, мы говорим с Gmail напрямую, не пытаясь направить команду через Alexa?

Такое чувство, что многие разочаровывающие ложные результаты голосовых помощников будут решены, если мы перестанем ожидать, что один голосовой помощник поймет 100% наших запросов. Потому что в реальной жизни только контекст того, с кем вы разговариваете, облегчает вам понимание друг друга и настройку вашей способности общаться. Мало кто будет разговаривать со своим бухгалтером так же, как они разговаривают со своим пятилетним ребенком, и именно поэтому мы можем понять себя обоих. Почему голосовые помощники должны быть разными?

Они не должны этого делать, поэтому Apple, Amazon, Microsoft и Google должны прекратить попытки запереть людей в своих ботах. Всегда найдется место для голосового помощника мастера на все руки, такого как Siri или Cortana, но гораздо больше возможностей открыть свои диалоговые платформы для небольших чат-ботов, которые могут посвятить себя определенным задачам, таким как Mac и Первые компьютеры IBM открылись из командной строки в мир приложений. Как Apple знает из-за своего iOS App Store, есть много прибыли и славы, чтобы быть привратником компьютерной революции, которой могут быть голосовые помощники… если бы только Силиконовая долина и ее конечные пользователи перестали удерживать наш ИИ более высокий стандарт связи, чем у наших собратьев.