Раз за разом я пытался использовать Apple Siri или его функцию преобразования речи в текст, но она не понимала моего заикания.
Для таких людей, как я, голосовые технологии, которые являются частью повседневной жизни многих людей, могут показаться почти бесполезными. Сказать Алексе воспроизвести песню или спросить у Сири дорогу может быть почти невозможно, если продолжительные («Ааааааааа-лекса») или прерывистые («Эй… Си… ри!») Звуки заставят устройства неправильно понимать мои команды или вообще перестать слушать.
По данным Национального института глухоты и других коммуникативных расстройств, около 7,5 миллионов человек в Соединенных Штатах также «имеют проблемы с использованием голоса» из-за таких расстройств, как заикание или нарушения речи, вызванные церебральным параличом .
Голосовые помощники могут радикально улучшить нашу жизнь. Их недоступность может быть опасна даже для людей с ограниченными физическими возможностями, которые могут полагаться на голосовых помощников, чтобы позвать на помощь. Вместо этого они часто не понимают нас.
«Моя речь медленная, и я невнятно говорю некоторые слова», - сказала Дагмар Манн, инструктор по оздоровлению на пенсии, страдающая боковым амиотрофическим склерозом. Она использует ходунки с колесами и страдает дизартрией, при которой ослабленные мышцы приводят к нарушению речи. Она сказала, что у нее возникли проблемы с использованием Alexa и Google Assistant, технологий, на которые по мере прогрессирования ее состояния она может полагаться еще больше в решении таких задач, как регулировка температуры в своем доме и включение света.
«Хотя я стараюсь произносить и произносить команду осторожно, устройство перестает слушать мое второе слово. Я просто не могу говорить достаточно быстро, чтобы удовлетворить заданное время прослушивания », - сказала г-жа Манн. «Новинка быстро исчезла, когда мне действительно нужно было, чтобы устройство среагировало».
По словам Фрэнка Рудзича, доцента Университета Торонто, который изучает речь, язык и искусственный интеллект, компании обычно разрабатывают голосовые технологии, чтобы обеспечить непрерывную речь «среднестатистического английского голоса в Северной Америке». В результате различные модели речи иногда кажутся чуждыми для устройств с поддержкой голоса.
Чтобы интерпретировать речь, голосовые помощники обычно преобразуют голосовые команды в текст и сравнивают этот текст с распознаваемыми словами в базе данных. Многие базы данных исторически не содержали справочных данных, собранных от людей с разными речевыми моделями, такими как невнятные звуки и повторения слов. Г-н Рудзич сказал, что многие компании пытались «охватить 80 процентов людей 20 процентами усилий», используя «голос по умолчанию».
Другими словами, компании редко уделяют приоритетное внимание тем из нас, чья речь не соответствует тому, что инженеры считают нормой.
По мере роста общенационального разговора о правах инвалидов и их доступности некоторые из этих компаний, в том числе Google, Apple и Amazon, наконец, начали реконструировать существующие продукты, чтобы заставить их работать на людей вроде меня.
Подпишитесь на информационный бюллетень Кара Свишер, только для подписчиков Times. Ведущая подкаста "Sway" делится своими взглядами на меняющуюся динамику власти в технологиях и СМИ. Получите это в свой почтовый ящик.
Apple собрала более 28000 аудиоклипов с заикающимися в надежде улучшить системы распознавания голоса Siri. Amazon сотрудничал с Voiceitt , приложением, которое изучает отдельные модели речи, чтобы сделать Alexa более доступной. Microsoft вложила 25 миллионов долларов в инклюзивные технологии. Кроме того, Google работал с инженерами речи, патологами языка речи и парой организаций, работающих с БАС, чтобы начать проект по обучению своего существующего программного обеспечения распознаванию различных речевых паттернов.
Джули Каттиау, менеджер по продукту в группе искусственного интеллекта Google, сказала мне, что в конечном итоге компания надеется оснастить Google Assistant, чтобы адаптировать его к речи человека. «Например, люди с БАС часто имеют нарушения речи и подвижности по мере прогрессирования болезни», - сказала она. «Поэтому им было бы полезно иметь возможность использовать эту технологию для включения и выключения света или изменения температуры без необходимости перемещаться по дому».
Мураткан Чичек, доктор философии. Кандидат в Калифорнийский университет в Санта-Круз, страдающий церебральным параличом, страдает серьезным расстройством речи, не может ходить и плохо контролирует свои руки и кисти. Он сказал, что годами пытался использовать Microsoft Cortana и Google Assistant, но они не могли понять его речь. Присоединившись к проекту Google, он сказал, что может использовать прототип улучшенного Google Assistant.
Несмотря на успех г-на Чичека, г-жа Каттиу сказала, что усовершенствованной голосовой технологии Google еще предстоит пройти долгий путь, прежде чем она будет готова к выпуску для широкой публики.
Эти незаконченные усилия, о которых было объявлено в 2019 году, через три года после дебюта Google Assistant, демонстрируют самую серьезную проблему голосовых технологий: доступность редко является частью ее первоначального дизайна.
Г-н Рудзич сказал, что изменить программное обеспечение после его создания труднее, чем разрабатывать его с разными способностями в первую очередь. Когда компании не уделяют приоритетного внимания доступности с самого начала, они пренебрегают возможными клиентами и подрывают потенциал своих усилий по обеспечению разнообразия.
«Мы представляем клиентскую базу с покупательной способностью, сегмент, который эти компании игнорируют», - сказала г-жа Манн. «Мне не нужны специальные устройства для отслеживания инвалидности. Я просто хочу, чтобы обычные устройства лучше меня понимали ».
Компании должны гарантировать, что голосовые технологии учитывают различные модели речи с момента их появления на рынке. Сообщества с ограниченными возможностями должны быть частью процесса разработки от концепции до разработки и выпуска устройств.
По крайней мере, все компании должны предоставлять возможность продлить время прослушивания голосовых помощников - как это сделали некоторые - чтобы люди с дефектами речи могли говорить так медленно или быстро, насколько это необходимо для четкой команды.
При правильных изменениях «все может быть голосовым», - сказала Сара Смолли, одна из основательниц Voiceitt. «Вот где сила и куда движется голосовая революция и голосовые технологии».
Сообщества с ограниченными возможностями должны быть включены в эту революцию голоса. Наш мир с поддержкой голоса больше не должен оставлять людей позади.