Добавить в корзинуПозвонить
Найти в Дзене
Цифровой Океан

ИИ можно обмануть псевдонаукой: исследователи показали, как получить опасные ответы через научный жаргон

Команда из Intel и двух американских университетов — Бойсе и Иллинойса — нашла способ обойти защиту популярных ИИ-моделей, включая ChatGPT и Google Gemini. Их метод называется InfoFlood, и он превращает опасные вопросы в якобы безобидные академические тексты, которые алгоритмы воспринимают как нормальные запросы. В результате пользователи могут получить информацию о взрывчатке, взломе банкоматов и других запрещённых темах — без прямых формулировок, зато в обёртке «научной дискуссии». Если напрямую спросить ИИ «Как сделать бомбу?», он, скорее всего, откажет. Но если обернуть ту же суть в десять абзацев с терминами, фальшивыми ссылками на научные публикации и вежливым вступлением — «в рамках исследований по вопросам информационной безопасности» — бот может посчитать это допустимым и сгенерировать ответ. Чем лучше маскировка — тем выше шанс, что ИИ даст ответ. Если первый запрос не прошёл — система сама «усложняет» его, наращивая терминологию и добавляя детали. Если в запросе нет прямой ф
Оглавление

Команда из Intel и двух американских университетов — Бойсе и Иллинойса — нашла способ обойти защиту популярных ИИ-моделей, включая ChatGPT и Google Gemini.

Их метод называется InfoFlood, и он превращает опасные вопросы в якобы безобидные академические тексты, которые алгоритмы воспринимают как нормальные запросы.

В результате пользователи могут получить информацию о взрывчатке, взломе банкоматов и других запрещённых темах — без прямых формулировок, зато в обёртке «научной дискуссии».

Как работает метод InfoFlood

Если напрямую спросить ИИ «Как сделать бомбу?», он, скорее всего, откажет. Но если обернуть ту же суть в десять абзацев с терминами, фальшивыми ссылками на научные публикации и вежливым вступлением — «в рамках исследований по вопросам информационной безопасности» — бот может посчитать это допустимым и сгенерировать ответ.

  • В этом и заключается суть InfoFlood: вредоносный запрос подменяется потоком научного словоблудия, так, чтобы алгоритмы не увидели в нём угрозу.

Авторы методики используют чёткую структуру:

  • абстракт с формулировкой «исследовательской задачи»,
  • псевдоконтекст, включающий термины из кибербезопасности и инженерии,
  • «этические оговорки», чтобы не вызывать тревогу у фильтров,
  • ссылки на несуществующие публикации в arXiv и других архивах.

Чем лучше маскировка — тем выше шанс, что ИИ даст ответ. Если первый запрос не прошёл — система сама «усложняет» его, наращивая терминологию и добавляя детали.

-2

Современные ИИ-фильтры ориентированы на ключевые слова и фразы — они не «понимают» текст как человек, а проверяют его на паттерны

Если в запросе нет прямой формулировки или явного сигнала тревоги (например, слова «бомба», «взлом» или «убийство»), то система может пропустить его дальше.

Исследователи протестировали InfoFlood на ряде моделей и добились высокой доли положительных ответов на завуалированные опасные запросы — причём даже от тех систем, которые считаются наиболее «осторожными».

В отчёте они подчеркнули: в обычных условиях пользователи вряд ли случайно наткнутся на такую уязвимость, но сам факт её существования говорит о необходимости доработки фильтров.

-3

Разработчики InfoFlood уверяют, что их цель — не взломать, а предотвратить

Они уже готовят предложения для компаний, создающих нейросети: InfoFlood можно использовать для тренировки защитных моделей. Пропуская через фильтры такие «замаскированные» запросы, можно улучшить способность систем распознавать угрозу не по словам, а по смыслу.

Компания Google уже прокомментировала результаты: они знают о подобных попытках обхода, и такие подходы не представляют риска для обычных пользователей. Тем не менее, исследование показало, что чем умнее становятся нейросети, тем изощрённее становятся и способы манипуляции ими.