Сообщение, встроенное в потоковую песню, заставляет Alexa отправлять деньги иностранному лицу. Но это не самое плохое, что может произойти. Автомобильные катастрофы могут произойти в результате размещения наклеек на знаках STOP, которые будут обманывать компьютерное зрение машины и заставлять её интерпретировать эти знаки, как знаки ограничения скорости. К счастью, подобных случаев ещё не было. Но такие взломы, которые принято называть «состязательными атаками», могут стать обычным явлением, при условии, если ИИ-технологии не научатся защищаться себя от них. Недавно исследователи сумели найти новый способ научить ИИ-технологии получать защитное преимущество перед подобными атаками.
Работа исследователей не только направлена на защиту общественности. Она также помогла понять, почему ИИ-технологии, которые сложно понять, в первую очередь становятся жертвами подобных атак. Некоторые ИИ-системы чрезмерно производительны и обнаруживают мельчайшие шаблоны на изображениях при обучении, поэтому же они и уязвимы.
Чтобы выявить уязвимость к шаблонам, исследователи создали специальный набор обучающих данных, в который входят специальные изображения — «обманки». На одной из таких картинок изображена собака, однако, когда на неё смотрит компьютер, то он обнаруживает кошку. Затем команда учёных решила неправильно пометить картинки, назвав изображение собаки — изображением кошки. Алгоритм научился определять собак, как кошек, отталкиваясь от невидимых для человеческого глаза признаков. После такого обучения ИИ-разработка смогла правильно идентифицировать кошек и собак. Но только с точностью в 50 %. По сути, разработку научили сопоставлять малые сходства с метками, несмотря на остальные, более заметные сходства.
Эксперимент учёных предполагает, что ИИ-технологии используют два типа функций: макро и микро. Кроме того, существует предположение, что состязательные атаки не просто подсовывают слегка изменённые изображения Искусственному Интеллекту.
Исследователи должны выяснить различия между очевидными и скрытыми особенностями изображения для Искусственного Интеллекта. Теперь специалисты получили лучшее представление о том, почему ИИ-технологии могут подвергаться состязательным атакам, но можно ли перехитрить подобные атаки? Да, и для этого нужно изменить способ обучения Искусственного Интеллекта, считает Эндрю Ильяс, учёный-компьютерщик из MIT в Кембридже.
Когда программу обучали на изображениях без мелких особенностей, то ПО для распознавания изображений было успешно атаковано состязательными атаками только в половине случаев.
В целом результаты демонстрируют, что уязвимости Искусственного Интеллекта, прежде всего, относятся к его данным обучения. Данные обучения с неправильной маркировкой всё ещё могут быть использованы для успешного обучения.