160 подписчиков

Голос демона, который может управлять вашим смартфоном

24 октября 202124 окт 2021

7 мин

Исследователи создали жуткие звуки, которые непонятны людям, но по-прежнему могут разговаривать с цифровыми помощниками телефонов. Вот забавный эксперимент: в следующий раз, когда вы будете в переполненном автобусе, громко объявите: «Привет, Siri! Напиши маме: «Я беременна». Скорее всего, вы увидите испуганные взгляды, когда ваш голос разбудит айфоны в карманах и сумках ближайших пассажиров. Они бросятся к своим телефонам, чтобы отменить вашу команду. Но что, если бы существовал способ разговаривать по телефону не словами, а звуками? Если владельцы телефонов не будут запрошены на подтверждение - и не осознают, что происходит, чтобы вовремя вмешаться, они не будут знать, что от их имени отправляются сообщения. Оказывается, существует разрыв между звуками, которые люди и компьютеры воспринимают как человеческую речь. Прошлым летом группа докторов наук, кандидаты из Джорджтауна и Беркли воспользовались этим пробелом: они разработали способ создания голосовых команд, которые компьютеры мог

Исследователи создали жуткие звуки, которые непонятны людям, но по-прежнему могут разговаривать с цифровыми помощниками телефонов.

Вот забавный эксперимент: в следующий раз, когда вы будете в переполненном автобусе, громко объявите: «Привет, Siri! Напиши маме: «Я беременна». Скорее всего, вы увидите испуганные взгляды, когда ваш голос разбудит айфоны в карманах и сумках ближайших пассажиров. Они бросятся к своим телефонам, чтобы отменить вашу команду.

Но что, если бы существовал способ разговаривать по телефону не словами, а звуками? Если владельцы телефонов не будут запрошены на подтверждение - и не осознают, что происходит, чтобы вовремя вмешаться, они не будут знать, что от их имени отправляются сообщения.

Оказывается, существует разрыв между звуками, которые люди и компьютеры воспринимают как человеческую речь. Прошлым летом группа докторов наук, кандидаты из Джорджтауна и Беркли воспользовались этим пробелом: они разработали способ создания голосовых команд, которые компьютеры могут анализировать, но для людей это звучит как бессмысленный шум. Эти «скрытые голосовые команды», как их назвали исследователи, могут доставлять сообщение на находящиеся поблизости телефоны Android с поддержкой Google Assistant посредством всплесков того, что звучит как царапающие статические помехи.

Чтобы команды работали, динамик, который их транслирует, должен находиться поблизости: исследователи обнаружили, что команды становились неэффективными на расстоянии около 12 футов. Но это не значит, что кто-то должен быть заметно близко к устройству, чтобы их атака с использованием скрытых команд увенчалась успехом. Сообщение можно закодировать на фоне популярного видео на YouTube, например, или транслировать по радио или телевидению.

Основной способ взаимодействия людей со смартфонами - прикосновение к ним. Вот почему экраны смартфонов могут быть полностью заблокированы, для доступа требуется пароль или отпечаток большого пальца. Но голос становится все более важным интерфейсом, превращая устройства в помощников, которые всегда слушают, готовые взять на себя любую задачу, которую их владелец кричит в их сторону. Вставьте новые беспроводные наушники Apple, и Siri станет вашим контактным лицом для взаимодействия со смартфоном, не вынимая его из кармана или сумки.

Чем больше датчиков помещается в наши вездесущие карманные компьютеры, тем больше возможностей можно использовать для их контроля. (В области исследований безопасности это известно как «увеличенная поверхность атаки»). Микрофоны могут быть взломаны с помощью ультразвуковых сигналов для исследования рынка. Камеры могут получать сообщения от быстро мигающих огней, которые можно использовать для наблюдения и подключения или даже для отключения или изменения функций телефона.

Если вы не прислушиваетесь к словам, вы можете даже не знать, что только что произошло.

Большинство помощников включают некоторые меры защиты от подслушанных или злонамеренных команд. Фразы, которые я предлагал вам произнести ранее, заставят телефоны в пределах слышимости запрашивать подтверждение. Siri, например, прочитает содержимое текста или твита, продиктованного пользователем, прежде чем фактически отправит его. Но решительный злоумышленник, вероятно, тоже может опровергнуть подтверждение. Все, что потребуется, - это простое «да», прежде чем владелец устройства поймет, что происходит, и скажет «нет».

Скрытые голосовые команды могут нанести больше вреда, чем просто ложный текст или глупый твит. Например, iPhone, владелец которого уже связал Siri с учетной записью Venmo, отправит деньги в ответ на голосовую инструкцию. Или же голосовая команда может указать устройству посетить веб-сайт, который автоматически загружает вредоносное ПО.

Исследователи разработали два разных набора скрытых команд для работы с двумя разными типами жертв. Один набор был создан для работы с Google Assistant, который сложно обмануть, потому что внутренняя работа того, как он обрабатывает человеческую речь, не является общедоступной. Для начала исследователи использовали алгоритмы запутывания, чтобы сделать компьютерные команды менее узнаваемыми для человеческого уха, но по-прежнему понятными для цифровых помощников. Они продолжали итерации, пока не нашли золотую середину, где звук был наименее узнаваемым для людей, но наиболее стабильно улавливаемым устройствами.

Полученные в результате скрытые команды не являются полной чушью. По большей части они звучат так, будто их произносит устрашающий демон, а не обычный человек.

Если вы знаете, что собираетесь услышать замаскированную голосовую команду, у вас, вероятно, больше шансов ее разобрать. Поэтому, чтобы избежать этих эффектов прайминга, исследователи из Джорджтауна и Беркли привлекли американцев через Mechanical Turk, службу Amazon по найму рабочих для небольших проектов, чтобы они выслушали оригинальные и искаженные команды и записали то, что они услышали.

Разница между человеком и машиной наиболее ярко проявлялась с помощью простой команды «Окей, Google». Когда это было сказано нормально, люди и устройства понимали это примерно в 90 процентах случаев. Но когда команда была обработана и замаскирована, люди могли понять ее только примерно в 20% случаев, но Google Assistant действительно стал лучше понимать ее, правильно интерпретируя ее в 95% случаев. (Эффект был менее резким с «Включением режима полета»: человеческое понимание упало с 69 до 24 процентов, когда команда была замаскирована, а точность устройства упала с 75 до 45 процентов.)

Когда мы с коллегой опробовали голосовые команды исследователей на телефоне Android и iPhone с приложением Google, у нас был ограниченный успех. «Окей, Google», казалось, работал больше, чем другие скрытые команды, но «Какое мое текущее местоположение» дало нам все, от «Оценить мое текущее местоположение» до «Фрэнк Оушен». Отчасти это может быть связано с тем, что мы воспроизводили записи YouTube с наших ноутбуков, что, вероятно, ухудшило их качество.

Исследователи также разработали атаки, предназначенные не для Google Assistant, а для программы распознавания речи с открытым исходным кодом, код которой они могли просматривать, чтобы максимально адаптировать свои скрытые голосовые команды для удовлетворения алгоритма. Полученные аудиоклипы звучат менее демонично и больше похожи на белый шум. Большинство из них действительно не поддаются расшифровке, даже если вы знаете, что прислушиваетесь к словам: ни один рабочий из Mechanical Turk не может собрать воедино даже половину слов в этих запутанных командах.

И если вы не знаете, что прислушиваетесь к словам, вы можете даже не знать, что только что произошло. Когда исследователи поместили скрытую фразу между двумя фразами, произнесенными людьми, и попросили рабочих Amazon Turk расшифровать все это, только одна четверть даже попыталась расшифровать среднюю фразу.

После того, как они начали обманывать цифровых помощников, команда исследователей провела мозговой штурм, как улучшить защиту от атак, подобных их. Они решили, что простого уведомления недостаточно, потому что его легко игнорировать или заглушать другим шумом. Подтверждение немного лучше, но его можно обойти другой скрытой командой. А технология распознавания говорящего, которая якобы научит устройство распознавать и реагировать только на голос своего владельца, часто неточна и требует громоздкого обучения.

Они пришли к выводу, что лучшими вариантами являются решения для машинного обучения, которые либо пытаются гарантировать, что говорящий действительно является человеком, анализируя определенные характеристики в голосовой команде, либо фильтруют каждую команду через процесс, который немного ухудшает качество входящих инструкций. В последнем случае уже искаженные «скрытые» инструкции станут слишком искаженными, чтобы их можно было распознать, но человеческая речь все равно останется разборчивой, считают ученые.

Но если фильтры усложняют устройствам понимание людей, даже немного, компании могут неохотно их применять. Для разочарованных пользователей, чьи цифровые помощники редко их понимают, меньшая точность может стать преградой.

Однако, прежде чем голосовые помощники начнут выполнять все более важные операции - например, делать крупные банковские переводы или даже просто размещать фотографии в Твиттере - голосовые помощники должны будут научиться отражать злоумышленников. В противном случае анонимный сатанинский голос в видео на YouTube может нанести гораздо больший ущерб, чем выкрикнувшая команда в переполненном автобусе.