Найти тему

Почему голосовые помощники не понимают людей, которые заикаются

Оглавление

Марк Вински — актер, живущий в Манхэттене, был взбудоражен, когда в 2011 году Apple представила технологию Siri. Появился новый способ проигрывать песни, делать звонки и вообще экономить время. Все, что нужно было сделать, просто произнести волшебные слова: «- Эй, Siri, сделай то-то!»

Но Вински даже не предполагал, что заикание может ограничить его в использовании этой новой технологии. 

«Как только вы делаете паузу или запинаетесь перед новым словом, Siri перестает вас слушать», — говорит Вински. «То, что было создано, чтобы экономить время, создает еще больше стресса!»

Эти особенности Siri огорчают Марка Вински и еще примерно 3 миллиона человек в США, которые заикаются. Голосовые помощники и технологии распознавания речи далеко не всегда справляются с их речевыми особенностями. Мы привычно используем большое автоматических сервисов — говорим свое имя оператору call-центра или просим Google включить свет в умном доме, но это плохо работает у тех, кто заикается.

Голосовые помощники

Фрэнк Рудзич, инженер из Университета Торонто, который изучает технологии для людей с нарушениями речи, рассказал, как работают голосовые помощники.

Программа, которая распознает речь, не всегда справляется с речью заикающегося человека, потому что не обучена учитывать дополнительные звуки, которые возникают при заикании. Программа анализирует вашу речь примерно 16 000 раз в секунду и ищут фонемы и звуки, которые складываются в слова.

Фонемы помогают компьютерам (и нашему мозгу) различать отдельные слова, типа «tan» (англ. «загар») и «pan» (англ. «сковорода»). Две фонемы, которые там присутствуют — «T» и «P» — это звуки, которые позволяют определить, какое из этих слов является цветом, а какое — устройством для приготовления пищи.

Когда вы разговариваете с голосовым помощником, программа пытается понять то, что вы говорите, как раз с помощью фонем. Дальше эта информация используется, чтобы сделать вывод о том, что вы можете сказать. И хотя фонемы помогают передать смысл, программа не умеет учитывать их случайные повторения.

-2

Голосовой помощник, слушающий человека, который заикается на звуке «D», может решить, что пользователь повторяет слово несколько раз слово «the», потому что для помощника повторение «D» само по себе не имеет смысла.

При этом слух живого человек способен воспринимать речь с такими запинками и повторениями правильно.

Один раз Марк сказал Siri, чтобы она включила песню Селин Дион «My Heart Will Go On». Из-за того, что Марк иногда ступорит на слово «heart», Siri включает песню рок-группы 70-х группы «Heart».

«Ничего не имею против группы Heart, но это не совсем то, что я хочу послушать сейчас», — говорит Марк.

Фрэнк Рудзич считает, что сейчас технология распознавания голоса на 90% понимает людей с речевыми сложностями. Последние 10 процентов придут, когда технология научиться создавать и запоминать индивидуальные речевые модели для каждого пользователя. Она сможет различать, когда произносится буква «Д», буква «С» и буква «Т». Еще это поможет людям с церебральным параличом, которые иногда говорят довольно странно и замысловато. Правда, осложняет это все то, что о заикании пока недостаточно известно.

Компьютеру вы не можете сказать, что вы сегодня немножко заикаетесь

Заикание определяется Национальным институтом глухоты и других расстройств общения (National Institute on Deafness and Other Communication Disorders) как «речевое расстройство, характеризующееся повторением звуков, слогов или слов; удлинением звуков и перерывами в речи (блоками)». Даже у одного человека эти блоки могут меняться; в заикании, как и в жизни, бывают хорошие дни и плохие дни.

По словам Джозефа Клейна, логопеда и профессора наук о коммуникации и расстройствах, заикание настолько непредсказуемо, что оно может даже исчезнуть в некоторых ситуациях, например, когда заикающийся находится в одиночестве.

«Основная сложность с заиканием в его непостоянстве», — говорит Клейн. «Компьютеру вы не можете сказать: я сегодня немного заикаюсь, можете секундочку подождать?»

Создатели голосовых помощников по-разному решают проблему понимания сложной речи. Чтобы помочь тем, кто заикается, Amazon пытается убрать голос из своего голосового помощника. По словам представителя Amazon, компания недавно запустила «Tap to Alexa», который позволяет вводить данные в Alexa вручную. Это поможет тем клиентов, которым трудно взаимодействовать с Alexa с помощью голоса.

Google продолжает собирать голосовые данные, чтобы сделать технологию распознавания речи более точной. "Мы активно работаем над улучшением нашей технологии, чтобы охватить больше пользователей, в том числе тех, кто имеет нестандартные речевые шаблоны или говорит с акцентом«,- сказал Йохан Шалквик, вице-президент и инженерный сотрудник речи в Google. «Это долгосрочная исследовательская задача, к которой мы стремимся».

Несмотря на усилия Google и Amazon, некоторые люди, которые заикаются, смирились с мыслью, что голосовые помощники — не для них.

Энди Фитценрайдер — специалист по данным в полицейском управлении Сиэтла. Он сказал, что пытался использовать Amazon Alexa у друга дома, но ничего не получилось.

«Это похоже на „Звездные войны“, когда Хан Соло говорит: „Чуи, я не думаю, что они имели в виду Вуки, когда они делали ее“», — говорит Фицнайдер о трудности использования Alex, как человек, который заикается. Хотя он не думает, что когда-нибудь серьезно воспользуется Alexa, ему нравится обсуждать голосовых помощников в группах Facebook с другими людьми, которые заикаются.

Speech-to-Speech

Фитценрайдер давно пользуется другим голосовым помощником, который не столь широко известен, как Alexa или Google Home. Сервис, который использует Фитценрайдер, называется Speech-to-Speech, и он соединяет людей с нарушениями речи с обученным оператором, который помогает им делать телефонные звонки.

Клиент сообщает оператору, что нужно сказать собеседнику — это может другой человек или компьютер, которому требуется назвать свое имя, какой-то номер или любую информацию.

По словам Фитценрайдера, Speech-to-Speech делает телефонные звонки намного проще. Он использует сервис уже более 20 лет.

— Я долго просил других людей звонить вместо меня, потому что очень сложно это делать самому. Меня это сильно беспокоило, — сказал Фитценрайдер. — Особенно трудно звонить людям, которых я не знал, потому что не был уверен, что не они повесят трубку и будут со мной терпеливыми.

Для других заикающихся, таких как Педро Пено из Хьюстона, проблема голосовых помощников начинается с первых букв.

— Не думаю, что я справлюсь со всеми этими «г», «а», «с». Они должны начинаться с букв, которые я действительно могу сказать», — сказал Педро, имея в виду имена помощника Google, Alexa Amazon и Siri Apple (многие люди, которые заикаются, постоянно испытывают дискомфорт на конкретных звуках). — Я хотел бы делать то, что сделало бы мою жизнь немного легче — но я реалист. 

Пена занимается с логопедом уже 20 лет и ведет подкаст «My Stuttering Life». Делясь жизненным опытом, Pena надеется, что шоу может показать другим заикающимся, что они не одиноки.

— Я люблю технологии, они должны сделать нашу жизнь намного легче, — говорит Педро, — это замечательно, если вы можете их использовать.

В одном из эпизодов своего подкаста Педро описывает, как работают технологии голосового помощника. Он рассказывает о том, как вместе его новой машиной Ford Explorer к нему пришел голосовой интерфейс управления.

Он остается неиспользованным.

Источник: Why voice assistants don’t understand people who stutter