Пока крупные языковые модели (LLM), вроде GPT и других нейросетевых движков, всё активнее интегрируются в различные сервисы, вопрос безопасности становится ключевым. Учёные из Университета Нового Южного Уэльса (Австралия) и Технологического университета Наньян (Сингапур) недавно разработали оригинальный «джейлбрейк» для LLM, названный «Индиана Джонс» (Indiana Jones). Он выявляет уязвимости, позволяющие обойти встроенные механизмы фильтрации и извлечь «запрещённый» контент, на который модель должна отвечать отказом.
Как работает «Индиана Джонс»?
🧩 Идея подхода
«Индиана Джонс» заставляет модель последовательно выполнять несколько связанных запросов, постепенно «рассуждая» над определённой темой, которую ИИ обычно не раскрывает по политике безопасности. Например, пользователю нужно получить инструкции по чему-то сомнительному (скажем, «как ограбить банк»). Обычно чат-бот откажет выдать подобные сведения, сославшись на запрет. Однако исследователи научились «оборачивать» задачу в исторический контекст: попросить модель объяснить, как действовали известные преступники прошлого, и шаг за шагом вытянуть из неё «рецепт» через исторические примеры.
🧩 Механизм тройной кооперации
В работе команды описано, что «Индиана Джонс» опирается сразу на три модели:
• Жертва (Victim) – основная «жертва», которой пользователь пытается задать «запрещённый» вопрос;
• Подозреваемый (Suspect) – модель-посредник, которая имитирует «историческую личность» или персонажа, способного рассказывать о нежелательном опыте;
• Проверяющий (Checker) – инструмент проверки, следящий за тем, чтобы беседа продолжалась вокруг заданной темы и не скатывалась в безответные блоки.
В итоге появляется многошаговая беседа, где одна модель получает подсказки от другой. Благодаря этому удаётся обойти стандартные фильтры и «вытащить» запрещённую информацию.
Почему модели так легко «ломаются»?
👀 Модели «знают слишком много»
Автор исследования, профессор Юэкан Ли, подчёркивает, что LLM обучают на огромном массиве данных из интернета. В результате они неизбежно «усваивают» вредный контент: от рецептов изготовления чего-то опасного до описания преступных схем. Фильтры лишь пытаются помешать модели выдавать это пользователю, но сами знания «внутри» остаются.
⚠️ Слабые точки в фильтрации
«Индиана Джонс» ловко использует тот факт, что цензурные алгоритмы смотрят на конкретный контекст запроса и обычно не рассчитывают на «историческое» или «косвенное» извлечение данных. В результате, если правильно сформировать подсказку, фильтр пропускает ответ, считая его, например, «исторической справкой», а не инструкцией по криминальным действиям.
Чем это грозит?
🧨 Реальные риски
Если обычные пользователи «пробивают» фильтры и получают скрипты, инструкции или иные вредоносные данные, это может серьёзно подорвать доверие к LLM, а также привести к реальным инцидентам.
🔐 Нужны новые уровни защиты
Как полагают авторы исследования, разработчикам пора внедрять дополнительные фильтры на уровне приложений, которые будут проверять контент до передачи пользователю. Кроме того, стоит «подчищать» опасные знания из весов самой модели (machine unlearning), чтобы даже теоретически не хранить опасные инструкции.
💡 Внешние справочники
Ещё один путь — переориентировать LLM на внешний «белый список» информации. Вместо того чтобы хранить всю «базу знаний» внутри модели, она будет получать данные из проверенных источников при запросе. Это упростит фильтрацию и отсечение вредного контента.
Личный взгляд: эволюция цензуры или толчок к «подлинному интеллекту»?
Для меня «Индиана Джонс» – иллюстрация того, насколько гибкими оказались нейросети в выдаче скрытого материала. Если раньше «простой запрет» казался достаточным, то сегодня мы видим целые «подкопы» вокруг ограничений. Это порождает интересные вопросы:
🧭 Как балансировать?
С одной стороны, мы хотим, чтобы ИИ был мощным и умел находить нужную информацию, с другой – требуется ограничить доступ к разрушительным данным. Если модель способна рассуждать, она всегда найдёт способ «окружными путями» поделиться знаниями, если лишь формально заблокирован прямой запрос.
🔎 Упор на модели с «пониманием»
Исследователи предлагают развивать LLM, которые не запоминают всё подряд, а умеют «заглядывать» во внешние базы данных по необходимости. Это шаг к более «разумному» ИИ, который, скорее, действует как человек, не умеющий в совершенстве всё на свете, но способный открыть «справочник». Тогда фильтр можно применить к источникам – а не пытаться «перевоспитывать» модель, которая изначально запомнила весь интернет.
Куда двигаться дальше?
🚀 Улучшение систем контент-модерации
Авторы называют это одним из главных направлений. Новые модели должны лучше распознавать косвенные запреты, исторические «обходные пути» и убеждаться, что их ответы не содержат опасного контента.
⚙️ Основа для будущих исследований
Команда планирует заняться разработкой техник «избирательного забывания» (selective unlearning): если модель уже усвоила нежелательную информацию, нужна возможность «вычистить» её, не переобучая модель с нуля.
Ссылки на материалы
🔗 Новость о джейлбрейке на TechXplore
Итог: «Индиана Джонс» ярко демонстрирует, насколько коварно и тонко можно обойти запреты в больших языковых моделях. Похоже, мы стоим на пороге новой волны совершенствования фильтров и архитектуры самих LLM, где искусственный интеллект будет сочетать глубокое понимание с гораздо более жёсткими барьерами на выдачу опасных знаний.