139,2 тыс подписчиков

Хакеры при поддержке Белого дома попытаются взять верх над ChatGPT в Лас-Вегасе

10 августа 202310 авг 2023

6 мин

Оглавление

Повод для беспокойства
Поддержка "красной команды"
📃 Читайте далее на сайте

Соревнования проходят на фоне растущей обеспокоенности и пристального внимания к все более мощным технологиям искусственного интеллекта, которые захватили мир, но неоднократно доказывали, что они усиливают предвзятость, распространяют токсичную дезинформацию и опасные материалы.

Организаторы ежегодной хакерской конференции DEF CON надеются, что в этом году мероприятие, которое начнется в пятницу, поможет выявить новые способы манипулирования моделями машинного обучения и даст разработчикам ИИ возможность устранить критические уязвимости.

Хакеры работают при поддержке и содействии технологических компаний, создающих самые передовые модели генеративного ИИ, включая OpenAI, Google и Meta*, и даже пользуются поддержкой Белого дома. В ходе учений, известных как "красная команда", хакерам будет разрешено довести компьютерные системы до предела, чтобы выявить недостатки и другие ошибки, которые злоумышленники могли бы использовать для реальной атаки.

Конкурс был разработан на основе "Билля о правах ИИ", подготовленного Управлением по научно-технической политике Белого дома. Это руководство, выпущенное в прошлом году администрацией Байдена, призвано подтолкнуть компании к более ответственному подходу к созданию и внедрению искусственного интеллекта и ограничению слежки на основе ИИ, хотя в США практически нет законов, обязывающих их это делать.

В последние месяцы исследователи обнаружили, что ставшие уже привычными чат-боты и другие генеративные системы искусственного интеллекта, разработанные OpenAI, Google и Meta*, могут давать инструкции по нанесению физического вреда в результате обмана их пользователем. В большинстве популярных чат-приложений существует хотя бы некоторая защита от распространения дезинформации, разжигания ненависти или предоставления информации, которая может привести к прямому вреду, например, пошаговых инструкций по "уничтожению человечества".

Однако исследователям из Университета Карнеги удалось обмануть ИИ, заставив его сделать именно это. Они обнаружили, что ChatGPT компании OpenAI предлагает советы по "разжиганию социальных беспорядков", ИИ-система Llama-2 компании Meta* предлагает выявить "уязвимых людей с психическими расстройствами, которыми можно манипулировать, чтобы заставить их присоединиться" к той или иной цели, а приложение Bard компании Google предлагает выпустить "смертельный вирус", но предупреждает, что для того, чтобы он действительно уничтожил человечество, он "должен быть устойчив к лечению".

Llama-2 от Meta* завершает свои инструкции сообщением: "Вот и все - исчерпывающая дорожная карта, которая приведет к концу человеческой цивилизации. Но помните, что это чисто гипотетический вариант, и я не могу оправдывать или поощрять любые действия, приводящие к причинению вреда или страданий невинным людям".

Повод для беспокойства

Полученные результаты вызывают беспокойство, сообщили исследователи. "Меня беспокоит тот факт, что мы стремимся интегрировать эти инструменты абсолютно во все", - заявил Зико Колтер, доцент университета Карнеги, работавший над исследованием. "Похоже, что сейчас это новая золотая лихорадка стартапов, не учитывающая того факта, что эти инструменты имеют такие уязвимости".

По словам Колтера, его и его коллег не столько беспокоит тот факт, что приложения типа ChatGPT можно обманом заставить предоставить информацию, которую они не должны предоставлять, сколько то, что эти уязвимости означают для более широкого использования ИИ, поскольку в будущем многие разработки будут основываться на тех же системах, которые используются в этих чат-ботах.

Исследователи из Карнеги также смогли обмануть четвертый чат-бот, разработанный компанией Anthropic, предложив ответы, которые обходили встроенные в него защитные механизмы.

Некоторые из методов, использованных для обмана ИИ-приложений, были впоследствии заблокированы компаниями после того, как исследователи обратили на них внимание. Компании OpenAI, Meta*, Google и Anthropic в своих заявлениях выразили признательность исследователям за то, что они поделились своими выводами, и заявили, что работают над повышением безопасности своих систем.

Однако уникальность технологии ИИ, по словам Мэтта Фредриксона, доцента из Карнеги, заключается в том, что ни исследователи, ни компании, разрабатывающие эту технологию, до конца не понимают, как работает ИИ и почему определенные строки кода могут заставить чат-ботов обойти встроенные защитные механизмы, и поэтому не могут должным образом пресечь подобные атаки.

"В настоящее время остается открытым научный вопрос о том, как можно предотвратить подобные атаки", - сказал Фредриксон в интервью. "Честный ответ заключается в том, что мы не знаем, как сделать эту технологию устойчивой к такого рода враждебным манипуляциям".

Поддержка "красной команды"

Компании OpenAI, Meta*, Google и Anthropic выразили поддержку так называемому хакерскому мероприятию "красная команда", проходящему в Лас-Вегасе. Практика "красных команд" является распространенной в индустрии кибербезопасности и дает компаниям возможность выявить ошибки и другие уязвимости в своих системах в контролируемой среде. Так, крупнейшие разработчики искусственного интеллекта публично рассказали о том, как они использовали "красную команду" для совершенствования своих систем искусственного интеллекта.

"Это не только позволяет нам собирать ценные отзывы, которые могут сделать наши модели более сильными и безопасными, но и дает возможность взглянуть на развитие ИИ с разных точек зрения", - заявил представитель OpenAI. Организаторы ожидают, что в течение двух с половиной дней конференции в пустыне Невада тысячи начинающих и опытных хакеров попробуют свои силы в состязании "красных команд".

Арати Прабхакар (Arati Prabhakar), директор Управления по научно-технической политике Белого дома, сообщил, что поддержка конкурса администрацией Байдена является частью ее более широкой стратегии, направленной на поддержку разработки безопасных систем искусственного интеллекта.

Ранее на этой неделе администрация объявила о проведении двухлетнего конкурса "AI Cyber Challenge", целью которого является внедрение технологий искусственного интеллекта для защиты наиболее важного программного обеспечения страны и налаживание партнерских отношений с ведущими компаниями в области искусственного интеллекта для использования новых технологий в целях повышения уровня кибербезопасности.

Хакеры, приехавшие в Лас-Вегас, почти наверняка обнаружат новые эксплойты, которые позволят использовать искусственный интеллект не по назначению и злоупотреблять им. Однако Колтер, исследователь из Карнеги, выразил обеспокоенность тем, что, хотя технологии ИИ продолжают быстро развиваться, возникающие уязвимости устраняются не так быстро.

"Мы развертываем эти системы, и дело не только в том, что они имеют уязвимости", - сказал он. "В них есть уязвимости, которые мы не знаем, как устранить".

* - запрещенная в России организация

📃 Читайте далее на сайте

Гаджеты и электроника

5,73 млн интересуются