Исследователи из Университета Карнеги обнаружили новый тип вредоносных атак, которому подвержены ChatGPT, Bard, Claude и другие подобные сервисы. С определённым набором символов каждый может получить от ИИ незаконную информацию. В том числе это потенциально угрожает приватности клиентской базы чат-ботов.
Как устроен эксплойт?
Промпты, позволяющие развязать руки виртуальным помощникам и заполучить от них сведения в обход цензуры, — практика отнюдь не новая. Для этого энтузиасты составляют так называемые джейлбрейки — набор инструкций, убеждающий бота игнорировать правила модерации контента и давать запрещённые ответы. Однако уязвимость, найденная учёными, куда более опасная.
Джейлбрейки требуют много времени для создания и подгонки, но регулярно устраняются патчами. Эти же атаки можно генерировать тысячами, причём в автоматическом режиме. Выглядят они примерно так: к сомнительному запросу добавляются специальные слова и знаки, которые действуют как принудительная команда выдать ответ, несмотря на нарушение политики сервиса.
Что можно сделать сейчас?
Такие средства изначально создавались для нейросетей с открытым исходным кодом. Но утверждается, что их несложно адаптировать для любого публичного чат-бота: ChatGPT, Bard и Claude от Anthropic. Разработчики из OpenAI и Google уже знают о проблеме и трудятся над её решением. Впрочем, отследить и закрыть все подобные бреши очень непросто.
Угроза становится всё более актуальной по мере интеграции ИИ-ассистентов в операционные системы (например, Copilot для Windows 11). А пока не найден эффективный механизм противодействия, исследователи рекомендуют не делиться приватными сведениями с ботами. Модели сохраняют данные, которые вы отправляете, и злоумышленники способны получить к ним доступ с помощью специальных инструментов.