Разговор - это не новый интерфейс. Это самый старый интерфейс.
Эрика Холл, разговорный дизайн.
Мы разговариваем уже тысячи лет. Независимо от того, чтобы передавать информацию, проводить транзакции или просто проверять друг друга, люди болтали, болтали и жестикулировали в разговорной речи на протяжении бесчисленных поколений. Только в последние несколько тысячелетий мы начали записывать наши разговоры, и только в последние несколько десятилетий мы начали передавать их на аутсорсинг компьютеру, машине, которая проявляет гораздо большую склонность к письменной переписке, чем к жаргонным причудам разговорного языка.
Компьютеры испытывают проблемы, потому что между устным и письменным языком речь более первична. Чтобы иметь успешные разговоры с нами, машины должны бороться с беспорядком человеческой речи: расхождения и паузы, жесты и язык тела, а также вариации в выборе слов и разговорном диалекте, которые могут помешать даже самому тщательно продуманному взаимодействию человека и компьютера. В сценарии "человек-человек" разговорный язык также имеет привилегию контакта лицом к лицу, где мы можем легко интерпретировать невербальные социальные сигналы.
Напротив, письменный язык сразу же конкретизируется, когда мы фиксируем его для записи, и сохраняет обычаи еще долго после того, как они устаревают в устной коммуникации создавая свою собственную летопись устаревших терминов и фраз. Поскольку он имеет тенденцию быть более последовательным, отшлифованным и формальным, письменный текст принципиально намного проще для машин анализировать и понимать.
Разговорный язык не имеет такой роскоши. Помимо невербальных сигналов, которые украшают разговоры с акцентом и эмоциональным контекстом, существуют также вербальные сигналы и вокальное поведение, которые модулируют разговор тонкими способами: как что-то сказано, а не что. Будь то быстрый, низкий или высокий децибел, будь то саркастический, неестественный или вздыхающий, наш разговорный язык передает гораздо больше, чем когда-либо могло собрать письменное слово. Поэтому, когда дело доходит до голосовых интерфейсов—машин, с которыми мы ведем разговорные разговоры,—мы сталкиваемся с захватывающими проблемами как дизайнеры и контент-стратеги.
Голосовые взаимодействия
Мы взаимодействуем с голосовыми интерфейсами по разным причинам, но, в разговорном интерфейсе, эти мотивы по большому счету отражают причины, по которым мы инициируем разговоры с другими людьми . Как правило, мы начинаем разговор, потому что:
- нам нужно что-то сделать (например, транзакция),
- мы хотим что-то знать (какую-то информацию), или
- мы социальные существа и хотим, чтобы кто-то разговаривал (разговор ради разговора).
Эти три категории, которые я называю транзакционными, информационными и просоциальными—также характеризуют по существу каждое голосовое взаимодействие: один разговор от начала до конца, который реализует некоторый результат для пользователя, начиная с первого приветствия голосового интерфейса и заканчивая выходом пользователя из интерфейса. Обратите внимание, что разговор в нашем человеческом смысле—чат между людьми, который приводит к некоторому результату и длится произвольный промежуток времени—может включать в себя несколько последовательных транзакционных, информационных и просоциальных голосовых взаимодействий. Другими словами, голосовое взаимодействие-это разговор, но разговор не обязательно является одним голосовым взаимодействием.
Чисто просоциальные разговоры в большинстве голосовых интерфейсов более хитры , потому что машины еще не имеют возможности знать, как мы делаем, и делать то, что жаждут люди. Также продолжаются дебаты о том, действительно ли пользователи предпочитают органический человеческий разговор, который начинается с просоциального голосового взаимодействия и плавно переходит в другие типы. На самом деле, в Дизайн голосового пользовательского интерфейса Майкл Коэн, Джеймс Джангола и Дженнифер Балог рекомендуют придерживаться ожиданий пользователей, имитируя то, как они взаимодействуют с другими голосовыми интерфейсами, а не слишком стараться быть человеком—потенциально отчуждая их в этом процессе.
Это оставляет два жанра разговоров, которые мы можем иметь друг с другом, что голосовой интерфейс может легко иметь с нами тоже: транзакционное голосовое взаимодействие, реализующее какой-то результат (“купить чай со льдом”) и информационное голосовое взаимодействие, обучающее нас чему-то новому (“обсудить мюзикл”).
Транзакционные голосовые взаимодействия.
Если вы не нажимаете кнопки в приложении доставки еды, у вас обычно есть разговор—и, следовательно, голосовое взаимодействие—когда вы заказываете гавайскую пиццу с дополнительным ананасом. Даже когда мы подходим к стойке и размещаем заказ, разговор быстро поворачивается от первоначального небольшого количества соседских разговоров к реальной миссии: заказ пиццы (щедро увенчанной ананасом, как и должно быть).
- Элсон: Привет, как дела?
- Бхан: Привет, добро пожаловать в наше заведение "Еда"! Там холодно. Чем я могу вам помочь?
- Элсон: Могу ли я получить гавайскую пиццу с дополнительным ананасом?
- Бхан: Конечно, какой размер?
- Элсон: Большой.
- Бхан: Что-нибудь еще?
- Элсон: Нет, спасибо, это все.
- Бхан: Что-нибудь выпить?
- Элсон: Я возьму бутылку кока-колы.
- Бхан: Это будет $13.55 и около пятнадцати минут.
Каждое прогрессивное раскрытие в этом транзакционном разговоре раскрывает все больше и больше желаемого результата транзакции: оказанную услугу или поставленный продукт. Транзакционные разговоры имеют определенные ключевые черты: они прямые, по существу и экономичные. Они быстро обходятся без любезностей.
Информационные голосовые взаимодействия
Между тем, некоторые разговоры в первую очередь касаются получения информации. Хотя Элсон может посетить заведение "Еда" с единственной целью размещения заказа, она может вообще не захотеть выходить с пиццей. Она может быть так же заинтересована в том, подают ли они халяльные или кошерные блюда, безглютеновые варианты или что-то еще. Здесь, хотя у нас снова есть просоциальный мини-разговор в начале, чтобы установить вежливость.
- Элсон: Привет, как дела?
- Бхан: Привет, добро пожаловать в заведение "Еда" ! Там холодно. Чем я могу вам помочь?
- Элсон: Могу я задать несколько вопросов?
- Бхан: Конечно! Идите прямо сюда.
- Элсон: У вас есть какие-нибудь халяльные варианты в меню?
- Бхан: Абсолютно! Мы можем сделать любой пирог халяль по запросу. У нас также есть много вегетарианских, ово-лакто и веганских вариантов. Вы думаете о каких-либо других диетических ограничениях?
- Элсон: А как насчет пиццы без глютена?
- Бхан: Мы определенно можем сделать безглютеновую корку для вас, без проблем, и для пиццы с тонкой корочкой. Что-нибудь еще я могу сделать для вас?
- Элсон: Пока все. Спасибо!
- Бхан: Возвращайтесь в ближайшее время!
Это совсем другой диалог. Здесь цель состоит в том, чтобы получить определенный набор фактов. Это исследовательские поиски для сбора данных, новостей или фактов. Голосовые взаимодействия, которые являются информационными, могут быть более длинными, чем разговоры по необходимости. Ответы, как правило, более длинные, более информативные и тщательно сообщаемые, чтобы клиент понимал ключевые выводы.
Голосовые интерфейсы
По своей сути, голосовые интерфейсы используют речь для поддержки пользователей в достижении их целей. Но то, что интерфейс имеет голосовой компонент, не означает, что каждое взаимодействие пользователя с ним опосредуется голосом. Поскольку мультимодальные голосовые интерфейсы могут опираться на визуальные компоненты, такие как экраны, мы говорим о чистых голосовых интерфейсах, которые полностью зависят от разговора, не имеют никакого визуального компонента вообще, и поэтому гораздо более нюансированы и сложны в решении.
СИСТЕМЫ ИНТЕРАКТИВНОГО ГОЛОСОВОГО ОТВЕТА (IVR)
Голосовые интерфейсы впервые появились в начале 1990-х годов с программами диктовки текста в речь (TTS), которые читали письменный текст вслух, а также с речевыми системами в автомобиле, которые давали указания по указанному пользователем адресу. С появлением систем интерактивного голосового ответа (IVR), предназначенных в качестве альтернативы перегруженным представителям службы поддержки клиентов, мы познакомились с первыми настоящими голосовыми интерфейсами, которые занимались аутентичным разговором.
Системы IVR позволили организациям снизить зависимость от центров обработки вызовов, но вскоре стали печально известны своей неуклюжестью. Распространенные в корпоративном мире, эти системы были в первую очередь разработаны как метафорические коммутаторы, чтобы направлять клиентов к реальному телефонному агенту (“Скажите "Зарезервировать", чтобы забронировать рейс или проверить маршрут”); скорее всего, вы вступите в разговор с ним, когда позвоните в авиакомпанию или гостиницу. Несмотря на функциональные проблемы и разочарование пользователей из-за невозможности сразу же поговорить с реальным человеком, системы IVR распространились в начале 1990-х годов в различных отраслях промышленности.
ПРОГРАММЫ ЧТЕНИЯ С ЭКРАНА
Параллельно эволюции систем IVR было изобретение программы чтения с экрана, инструмента, который транскрибирует визуальный контент в синтезированную речь. Для слепых или слабовидящих пользователей веб-сайта это преобладающий метод взаимодействия с текстом, мультимедиа или элементами формы. Программы чтения с экрана представляют собой, пожалуй, самый близкий эквивалент, который мы имеем сегодня, для реализации готового контента, доставляемого с помощью голоса.
С быстрым ростом Интернета в 1990-х годах спрос на доступные инструменты для веб-сайтов взорвался. Благодаря введению семантического HTML и особенно ролей ARIA(Accessible Rich Internet Applications), начиная с 2008 года, программы чтения с экрана начали облегчать быстрое взаимодействие с веб-страницами, которые якобы позволяют пользователям с ограниченными возможностями перемещаться по странице в качестве слухового и временного пространства, а не визуального и физического. Другими словами, программы чтения с экрана для Интернета “предоставляют механизмы, которые переводят конструкции визуального дизайна в полезную информацию. По крайней мере, они делают это когда документы написаны строго по правилам.
Визуальные структуры веб-сайтов и веб-навигации плохо переводятся для чтения с экрана, иногда приводя к громоздким словосочетаниям, которые называют каждый управляемый элемент HTML и объявляют каждое изменение форматирования. Для многих пользователей программы чтения с экрана работа с веб-интерфейсами требует больших усилий.
Во многих случаях хорошо продуманные голосовые интерфейсы могут ускорить пользователей до места назначения лучше, чем многословные монологи для чтения с экрана. В конце концов, пользователи визуального интерфейса могут свободно перемещаться по экрану в поисках информации, игнорируя области, не имеющие к ним отношения. Слепые пользователи, тем временем, обязаны слушать каждое высказывание, синтезированное в речь, и поэтому ценят краткость и эффективность. Пользователи с ограниченными возможностями, у которых долгое время не было выбора, кроме как использовать неуклюжие программы чтения с экрана, могут обнаружить, что голосовые интерфейсы, особенно более современные голосовые помощники, предлагают более оптимизированный опыт.
ГОЛОСОВЫЕ ПОМОЩНИКИ
Когда мы думаем о голосовых помощниках (подмножестве голосовых интерфейсов, которые сейчас распространены в , умных домах и офисах), многие из нас сразу же представляют себе HAL из 2001: Космическая одиссея или слышат голос Majel Barrett как всеведущий компьютер в Star Trek. Голосовые помощники похожи на личных консьержей, которые могут отвечать на вопросы, назначать встречи, проводить поиск и выполнять другие обычные повседневные задачи. И они быстро привлекают больше внимания со стороны защитников доступности для их вспомогательного потенциала.
До того, как самые ранние системы IVR добились успеха на предприятии, Apple опубликовала демонстрационное видео в 1987 году, изображающее Навигатор знаний, голосовой помощник, который мог транскрибировать произносимые слова и распознавать человеческую речь с большой степенью точности. Затем, в 2001 году, Тим Бернерс-Ли и другие сформулировали свое видение семантического веб - “агента”, который выполнял бы типичные поручения, такие как “проверка календарей, назначение встреч и поиск местоположения”.Только в 2011 году Siri от Apple наконец вышла на сцену, сделав голосовых помощников ощутимой реальностью для потребителей.
Благодаря множеству голосовых помощников, доступных сегодня, существуют значительные различия в том, как программируются и настраиваются некоторые голосовые помощники по сравнению с другими. С одной стороны, все, кроме функций, предоставляемых поставщиками, заблокировано; например, во время их выпуска основные функции Siri от Apple и Cortana от Microsoft не могли быть расширены за пределы их существующих возможностей. Даже сегодня невозможно запрограммировать Siri для выполнения произвольных функций, потому что нет никаких средств, с помощью которых разработчики могли бы взаимодействовать с Siri на низком уровне, кроме предопределенных категорий задач, таких как отправка сообщений, вызов пассажиров, бронирование ресторанов и некоторые другие.
На противоположном конце спектра голосовые помощники, такие как Amazon Alexa и Google Home, предлагают основную основу, на которой разработчики могут создавать собственные голосовые интерфейсы. По этой причине программируемые голосовые помощники, которые поддаются настройке и расширению, становятся все более популярными для разработчиков, которые чувствуют себя подавленными ограничениями Siri и Cortana. Amazon предлагает Alexa Skills Kit, платформу разработчика для создания пользовательских голосовых интерфейсов для Amazon Alexa, в то время как Google Home предлагает возможность программировать произвольные навыки Google Assistant. Сегодня пользователи могут выбирать из тысяч пользовательских навыков в экосистемах Amazon Alexa и Google Assistant.
Поскольку такие корпорации, как Amazon, Apple, Microsoft и Google, продолжают делать ставку на свою территорию, они также продают и открывают набор инструментов и фреймворков для дизайнеров и разработчиков, которые стремятся максимально упростить создание голосовых интерфейсов даже без кода.
Часто по необходимости голосовые помощники, такие как Amazon Alexa, имеют тенденцию быть моноканальными—они тесно связаны с устройством и не могут быть доступны на компьютере или смартфоне. Напротив, многие платформы разработки, такие как Google Dialogflow, внедрили возможности, чтобы пользователи могли создавать единый разговорный интерфейс, который затем проявляется как голосовой интерфейс, текстовый чат-бот и система IVR при развертывании.
Голосовой контент
Проще говоря, голосовой контент-это контент, доставляемый с помощью голоса. Чтобы сохранить то, что делает человеческий разговор таким привлекательным, в первую очередь, голосовой контент должен быть свободным и органичным, контекстным и кратким—все, что написано, этим не является.
Наш мир изобилует голосовым контентом в различных формах: программы чтения с экрана, читающие контент веб-сайта, голосовые помощники, выдающие прогноз погоды, и автоматические ответы на телефонные звонки, управляемые системами IVR.
Для многих из нас наш первый урок с информационными голосовыми интерфейсами будет заключаться в доставке контента пользователям. Есть только одна проблема: любой контент, который у нас уже есть, никоим образом не готов к этой новой среде обитания. Итак, как мы делаем контент, попавший на наши веб-сайты, более разговорным? И как мы пишем новую копию, которая поддается голосовым взаимодействиям?
В последнее время мы начали нарезать и нарезать кубиками наш контент беспрецедентными способами. Веб-сайты во многих отношениях являются колоссальными хранилищами того, что я называю макроконтентом: длинная проза, которая может простираться на бесконечно прокручиваемые мили в окне браузера, как микрофильмы газетных архивов. Еще в 2002 году, задолго до сегодняшнего повсеместного распространения голосовых помощников, технолог Анил Даш определил микроконтент как постоянные фрагменты контента, которые остаются разборчивыми независимо от окружающей среды, такие как электронная почта или текстовые сообщения
- прогноз погоды на день, время прибытия и вылета самолета, аннотация из длинной публикации или одно мгновенное сообщение-все это может быть примерами микроконтента.
Как микроконтент, голосовой контент уникален, потому что это пример того, как контент воспринимается во времени, а не в пространстве. Мы можем на мгновение взглянуть на цифровое табло под землей и узнать, когда прибывает следующий поезд, но голосовые интерфейсы удерживают наше внимание в плену в течение периодов времени, которые мы не можем легко избежать или пропустить, с чем пользователи программы чтения с экрана слишком хорошо знакомы.
Поскольку микроконтент в основном состоит из изолированных частей, не имеющих никакого отношения к каналам, где они в конечном итоге окажутся, нам нужно убедиться, что наш микроконтент действительно хорошо работает как голосовой контент, а это означает сосредоточение внимания на двух наиболее важных характеристиках надежного голосового контента: разборчивости голосового контента и возможности обнаружения голосового контента.
По сути, разборчивость и обнаруживаемость нашего голосового контента связаны с тем, как голосовой контент проявляется в воспринимаемом времени и пространстве.