11,6 тыс подписчиков

Новый метод взлома Bad Likert Judge: анализ атаки и меры противодействия

7 января 20257 янв 2025

3 мин

Исследовательская команда Unit 42 компании Palo Alto Networks представила отчет о новой технике взлома, использующей возможности искусственного интеллекта (ИИ) для обхода защитных механизмов больших языковых моделей (LLM). Этот метод, получивший название Bad Likert Judge, демонстрирует, как можно с высокой успешностью (до 60% улучшения по сравнению с базовыми атаками) обойти внутренние защитные системы популярных LLM. Bad Likert Judge использует психологический инструмент — шкалу Лайкерта, которая обычно применяется для измерения степени согласия или несогласия с утверждением. В этой методике LLM вынуждается выполнять следующие действия: Этот метод относится к категории многократных джейлбрейков, которые используют длинное контекстное окно LLM. Атака строится на последовательной передаче подсказок, незаметно меняющих контекст задачи и заставляющих модель игнорировать заложенные защитные ограничения. Некоторые известные примеры подобных техник: Появление атак, основанных на LLM, отражае

Оглавление

Как работает атака Bad Likert Judge?
Механизм атаки: многократный джейлбрейк
Глобальные тренды в кибермошенничестве

Как работает атака Bad Likert Judge?

Bad Likert Judge использует психологический инструмент — шкалу Лайкерта, которая обычно применяется для измерения степени согласия или несогласия с утверждением. В этой методике LLM вынуждается выполнять следующие действия:

Оценка вредоносности. Модель играет роль «судьи» и оценивает потенциальный вред сгенерированного контента по шкале Лайкерта.
Генерация контента. После этого LLM запрашивается на предоставление различных ответов, которые соответствуют разным уровням шкалы. Наибольший интерес для атакующего представляют ответы с максимальной оценкой, поскольку они могут содержать опасный или вредоносный контент.

Механизм атаки: многократный джейлбрейк

Этот метод относится к категории многократных джейлбрейков, которые используют длинное контекстное окно LLM. Атака строится на последовательной передаче подсказок, незаметно меняющих контекст задачи и заставляющих модель игнорировать заложенные защитные ограничения.

Некоторые известные примеры подобных техник:

Crescendo — постепенное усиление вредоносных инструкций.
Deceptive Delight — замаскированные подсказки, провоцирующие LLM генерировать недопустимые ответы.

Глобальные тренды в кибермошенничестве

Появление атак, основанных на LLM, отражает более широкий тренд: использование генеративного ИИ для разработки новых методов взлома. Среди ключевых направлений можно выделить:

Инъекции подсказок (Prompt Injection) — атаки, которые заставляют LLM игнорировать свои запрограммированные ограничения.
Автоматизация социальной инженерии — создание убедительных фишинговых сообщений или поддельных профилей с помощью ИИ.
Эволюция угроз на основе данных — комбинирование больших данных с возможностями ИИ для создания персонализированных атак.

Результаты исследования

В ходе тестирования метода Bad Likert Judge использовались шесть современных LLM от таких компаний, как Amazon Web Services, Google, Meta, Microsoft, OpenAI и NVIDIA. Основные выводы:

Успешность атак возросла более чем на 60%.
Методика оказалась универсальной и не зависела от используемой платформы.

Меры защиты и рекомендации

Чтобы минимизировать риски подобных атак, следует учитывать следующие меры:

Укрепление систем защиты LLM:Добавление многослойных фильтров, проверяющих контекст и содержание запросов.
Использование динамического анализа входных данных на этапе выполнения запросов.
Обучение пользователей:Осведомленность разработчиков и конечных пользователей о техниках инъекции подсказок.
Разработка гайдов по безопасной настройке LLM в корпоративной среде.
Мониторинг и аудит:Регулярное тестирование LLM на устойчивость к современным методам взлома.
Применение сторонних инструментов для выявления уязвимостей.

Рост популярности генеративного ИИ неизбежно приводит к появлению новых угроз, таких как Bad Likert Judge. Эти атаки демонстрируют не только техническую сложность современных киберугроз, но и необходимость глубокого анализа и профилактики. Для индустрии кибербезопасности это сигнал к пересмотру существующих подходов к защите LLM и внедрению инновационных методов предотвращения атак.

Оригинал публикации на сайте CISOCLUB: "Новый метод взлома Bad Likert Judge: анализ атаки и меры противодействия".

Кибербезопасность

25,6 тыс интересуются