Исследовательская команда Unit 42 компании Palo Alto Networks представила отчет о новой технике взлома, использующей возможности искусственного интеллекта (ИИ) для обхода защитных механизмов больших языковых моделей (LLM). Этот метод, получивший название Bad Likert Judge, демонстрирует, как можно с высокой успешностью (до 60% улучшения по сравнению с базовыми атаками) обойти внутренние защитные системы популярных LLM. Bad Likert Judge использует психологический инструмент — шкалу Лайкерта, которая обычно применяется для измерения степени согласия или несогласия с утверждением. В этой методике LLM вынуждается выполнять следующие действия: Этот метод относится к категории многократных джейлбрейков, которые используют длинное контекстное окно LLM. Атака строится на последовательной передаче подсказок, незаметно меняющих контекст задачи и заставляющих модель игнорировать заложенные защитные ограничения. Некоторые известные примеры подобных техник: Появление атак, основанных на LLM, отражае
Новый метод взлома Bad Likert Judge: анализ атаки и меры противодействия
7 января 20257 янв 2025
6
3 мин