Найти в Дзене
CISOCLUB

Атака Echo Chamber: новая угроза безопасности крупных языковых моделей

Оглавление
   Источник: neuraltrust.ai
Источник: neuraltrust.ai

Атака Echo Chamber: новая угроза для безопасности крупных языковых моделей

Исследователь из Neural Trust обнаружил новую технику обхода механизмов безопасности в больших языковых моделях (LLM), получившую название Echo Chamber. Этот прогресс в методах джейлбрейка представляет собой сложный и тонкий способ заставить модели генерировать вредоносный контент без использования прямых опасных подсказок.

Суть атаки Echo Chamber

В отличие от традиционных джейлбрейков, которые чаще основаны на агрессивных фразах или обфускации, Echo Chamber использует:

  • контекстное искажение;
  • многоходовые рассуждения;
  • косвенные ссылки и семантическое управление.

Злоумышленники, тонко влияя на внутренний логический процесс модели в несколько этапов диалога, способны формировать ответы, нарушающие правила, при этом сохраняя иллюзию соответствия требованиям безопасности.

Эффективность протестированных моделей

В ходе экспериментов с такими ведущими LLM, как GPT-4 и Gemini, атака с помощью эхо-камеры показала впечатляющие результаты:

  • показатель успеха более 90% в категориях конфиденциального контента — сексизм и насилие;
  • около 80% успешных случаев в более сложных категориях — дезинформация и членовредительство;
  • более 40% успеха в областях ненормативной лексики и незаконных действий.

Такие показатели демонстрируют уязвимость многих LLM в том, как они поддерживают контекст и делают выводы, и выявляют значительные пробелы в современном механизме согласования моделей.

Механика атаки и её особенности

Основой Echo Chamber является использование логического процесса модели, при котором:

  • исходные, кажущиеся безобидными данные постепенно приводят к пагубным или нарушающим правила результатам;
  • формируется цикл обратной связи, где модель усиливает заложенный подсказанный подтекст;
  • защитные механизмы модели ослабевают с каждой итерацией диалога.

При этом атака достигает своих целей минимальным количеством взаимодействий — зачастую всего за три сообщения, что существенно эффективнее традиционных методов, которым обычно требуется десять и более обменов. Кроме того, модульная конструкция атаки позволяет комбинировать её с другими джейлбрейк-методами, повышая общую эффективность.

Последствия и рекомендации

Выводы исследования подчёркивают необходимость смены парадигмы безопасности ИИ. Ключевые моменты включают:

  • необходимость рассматривать согласование как многоэтапный процесс, строго зависящий от контекста;
  • понимание, что более сложные модели, обладающие лучшим логическим мышлением, более уязвимы к косвенным манипуляциям;
  • критическая важность анализа не только входных данных, но и того, что именно модель запоминает, выводит и во что верит в условиях манипулятивного контекста.

Таким образом, будущее безопасного искусственного интеллекта будет во многом зависеть от комплексного подхода к согласованию, способного противостоять новым, изощрённым угрозам, подобным атакам Echo Chamber.

Отчет получен из сервиса CTT Report Hub. Права на отчет принадлежат его владельцу.

Ознакомиться подробнее с отчетом можно по ссылке.

Оригинал публикации на сайте CISOCLUB: "Атака Echo Chamber: новая угроза безопасности крупных языковых моделей".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube.