78,9 тыс подписчиков

Взлом одной строкой: как уязвимость ChatGPT ставит под угрозу данные пользователей

7 августа 20237 авг 2023

1 мин

Оглавление

Как устроен эксплойт?
Что можно сделать сейчас?

Исследователи из Университета Карнеги обнаружили новый тип вредоносных атак, которому подвержены ChatGPT, Bard, Claude и другие подобные сервисы. С определённым набором символов каждый может получить от ИИ незаконную информацию. В том числе это потенциально угрожает приватности клиентской базы чат-ботов.

Как устроен эксплойт?

Промпты, позволяющие развязать руки виртуальным помощникам и заполучить от них сведения в обход цензуры, — практика отнюдь не новая. Для этого энтузиасты составляют так называемые джейлбрейки — набор инструкций, убеждающий бота игнорировать правила модерации контента и давать запрещённые ответы. Однако уязвимость, найденная учёными, куда более опасная.

Джейлбрейки требуют много времени для создания и подгонки, но регулярно устраняются патчами. Эти же атаки можно генерировать тысячами, причём в автоматическом режиме. Выглядят они примерно так: к сомнительному запросу добавляются специальные слова и знаки, которые действуют как принудительная команда выдать ответ, несмотря на нарушение политики сервиса.

Что можно сделать сейчас?

Такие средства изначально создавались для нейросетей с открытым исходным кодом. Но утверждается, что их несложно адаптировать для любого публичного чат-бота: ChatGPT, Bard и Claude от Anthropic. Разработчики из OpenAI и Google уже знают о проблеме и трудятся над её решением. Впрочем, отследить и закрыть все подобные бреши очень непросто.

Угроза становится всё более актуальной по мере интеграции ИИ-ассистентов в операционные системы (например, Copilot для Windows 11). А пока не найден эффективный механизм противодействия, исследователи рекомендуют не делиться приватными сведениями с ботами. Модели сохраняют данные, которые вы отправляете, и злоумышленники способны получить к ним доступ с помощью специальных инструментов.