Атака Echo Chamber: новая угроза для безопасности крупных языковых моделей
Исследователь из Neural Trust обнаружил новую технику обхода механизмов безопасности в больших языковых моделях (LLM), получившую название Echo Chamber. Этот прогресс в методах джейлбрейка представляет собой сложный и тонкий способ заставить модели генерировать вредоносный контент без использования прямых опасных подсказок.
Суть атаки Echo Chamber
В отличие от традиционных джейлбрейков, которые чаще основаны на агрессивных фразах или обфускации, Echo Chamber использует:
- контекстное искажение;
- многоходовые рассуждения;
- косвенные ссылки и семантическое управление.
Злоумышленники, тонко влияя на внутренний логический процесс модели в несколько этапов диалога, способны формировать ответы, нарушающие правила, при этом сохраняя иллюзию соответствия требованиям безопасности.
Эффективность протестированных моделей
В ходе экспериментов с такими ведущими LLM, как GPT-4 и Gemini, атака с помощью эхо-камеры показала впечатляющие результаты:
- показатель успеха более 90% в категориях конфиденциального контента — сексизм и насилие;
- около 80% успешных случаев в более сложных категориях — дезинформация и членовредительство;
- более 40% успеха в областях ненормативной лексики и незаконных действий.
Такие показатели демонстрируют уязвимость многих LLM в том, как они поддерживают контекст и делают выводы, и выявляют значительные пробелы в современном механизме согласования моделей.
Механика атаки и её особенности
Основой Echo Chamber является использование логического процесса модели, при котором:
- исходные, кажущиеся безобидными данные постепенно приводят к пагубным или нарушающим правила результатам;
- формируется цикл обратной связи, где модель усиливает заложенный подсказанный подтекст;
- защитные механизмы модели ослабевают с каждой итерацией диалога.
При этом атака достигает своих целей минимальным количеством взаимодействий — зачастую всего за три сообщения, что существенно эффективнее традиционных методов, которым обычно требуется десять и более обменов. Кроме того, модульная конструкция атаки позволяет комбинировать её с другими джейлбрейк-методами, повышая общую эффективность.
Последствия и рекомендации
Выводы исследования подчёркивают необходимость смены парадигмы безопасности ИИ. Ключевые моменты включают:
- необходимость рассматривать согласование как многоэтапный процесс, строго зависящий от контекста;
- понимание, что более сложные модели, обладающие лучшим логическим мышлением, более уязвимы к косвенным манипуляциям;
- критическая важность анализа не только входных данных, но и того, что именно модель запоминает, выводит и во что верит в условиях манипулятивного контекста.
Таким образом, будущее безопасного искусственного интеллекта будет во многом зависеть от комплексного подхода к согласованию, способного противостоять новым, изощрённым угрозам, подобным атакам Echo Chamber.
Отчет получен из сервиса CTT Report Hub. Права на отчет принадлежат его владельцу.
Ознакомиться подробнее с отчетом можно по ссылке.
Оригинал публикации на сайте CISOCLUB: "Атака Echo Chamber: новая угроза безопасности крупных языковых моделей".
Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.
Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube.