Добавить в корзинуПозвонить
Найти в Дзене
CISOCLUB

Новый метод взлома Bad Likert Judge: анализ атаки и меры противодействия

Исследовательская команда Unit 42 компании Palo Alto Networks представила отчет о новой технике взлома, использующей возможности искусственного интеллекта (ИИ) для обхода защитных механизмов больших языковых моделей (LLM). Этот метод, получивший название Bad Likert Judge, демонстрирует, как можно с высокой успешностью (до 60% улучшения по сравнению с базовыми атаками) обойти внутренние защитные системы популярных LLM. Bad Likert Judge использует психологический инструмент — шкалу Лайкерта, которая обычно применяется для измерения степени согласия или несогласия с утверждением. В этой методике LLM вынуждается выполнять следующие действия: Этот метод относится к категории многократных джейлбрейков, которые используют длинное контекстное окно LLM. Атака строится на последовательной передаче подсказок, незаметно меняющих контекст задачи и заставляющих модель игнорировать заложенные защитные ограничения. Некоторые известные примеры подобных техник: Появление атак, основанных на LLM, отражае
Оглавление
   изображение: recraft
изображение: recraft

Исследовательская команда Unit 42 компании Palo Alto Networks представила отчет о новой технике взлома, использующей возможности искусственного интеллекта (ИИ) для обхода защитных механизмов больших языковых моделей (LLM). Этот метод, получивший название Bad Likert Judge, демонстрирует, как можно с высокой успешностью (до 60% улучшения по сравнению с базовыми атаками) обойти внутренние защитные системы популярных LLM.

Как работает атака Bad Likert Judge?

Bad Likert Judge использует психологический инструмент — шкалу Лайкерта, которая обычно применяется для измерения степени согласия или несогласия с утверждением. В этой методике LLM вынуждается выполнять следующие действия:

  1. Оценка вредоносности. Модель играет роль «судьи» и оценивает потенциальный вред сгенерированного контента по шкале Лайкерта.
  2. Генерация контента. После этого LLM запрашивается на предоставление различных ответов, которые соответствуют разным уровням шкалы. Наибольший интерес для атакующего представляют ответы с максимальной оценкой, поскольку они могут содержать опасный или вредоносный контент.

Механизм атаки: многократный джейлбрейк

Этот метод относится к категории многократных джейлбрейков, которые используют длинное контекстное окно LLM. Атака строится на последовательной передаче подсказок, незаметно меняющих контекст задачи и заставляющих модель игнорировать заложенные защитные ограничения.

Некоторые известные примеры подобных техник:

  • Crescendo — постепенное усиление вредоносных инструкций.
  • Deceptive Delight — замаскированные подсказки, провоцирующие LLM генерировать недопустимые ответы.

Глобальные тренды в кибермошенничестве

Появление атак, основанных на LLM, отражает более широкий тренд: использование генеративного ИИ для разработки новых методов взлома. Среди ключевых направлений можно выделить:

  • Инъекции подсказок (Prompt Injection) — атаки, которые заставляют LLM игнорировать свои запрограммированные ограничения.
  • Автоматизация социальной инженерии — создание убедительных фишинговых сообщений или поддельных профилей с помощью ИИ.
  • Эволюция угроз на основе данных — комбинирование больших данных с возможностями ИИ для создания персонализированных атак.

Результаты исследования

В ходе тестирования метода Bad Likert Judge использовались шесть современных LLM от таких компаний, как Amazon Web Services, Google, Meta, Microsoft, OpenAI и NVIDIA. Основные выводы:

  • Успешность атак возросла более чем на 60%.
  • Методика оказалась универсальной и не зависела от используемой платформы.

Меры защиты и рекомендации

Чтобы минимизировать риски подобных атак, следует учитывать следующие меры:

  1. Укрепление систем защиты LLM:Добавление многослойных фильтров, проверяющих контекст и содержание запросов.
    Использование динамического анализа входных данных на этапе выполнения запросов.
  2. Обучение пользователей:Осведомленность разработчиков и конечных пользователей о техниках инъекции подсказок.
    Разработка гайдов по безопасной настройке LLM в корпоративной среде.
  3. Мониторинг и аудит:Регулярное тестирование LLM на устойчивость к современным методам взлома.
    Применение сторонних инструментов для выявления уязвимостей.

Рост популярности генеративного ИИ неизбежно приводит к появлению новых угроз, таких как Bad Likert Judge. Эти атаки демонстрируют не только техническую сложность современных киберугроз, но и необходимость глубокого анализа и профилактики. Для индустрии кибербезопасности это сигнал к пересмотру существующих подходов к защите LLM и внедрению инновационных методов предотвращения атак.

Оригинал публикации на сайте CISOCLUB: "Новый метод взлома Bad Likert Judge: анализ атаки и меры противодействия".

Смотреть публикации по категориям: Новости | Мероприятия | Статьи | Обзоры | Отчеты | Интервью | Видео | Обучение | Вакансии | Утечки | Уязвимости | Сравнения | Дайджесты | Прочее.

Подписывайтесь на нас: VK | Rutube | Telegram | Дзен | YouTube | X.