Команда из Intel и двух американских университетов — Бойсе и Иллинойса — нашла способ обойти защиту популярных ИИ-моделей, включая ChatGPT и Google Gemini. Их метод называется InfoFlood, и он превращает опасные вопросы в якобы безобидные академические тексты, которые алгоритмы воспринимают как нормальные запросы. В результате пользователи могут получить информацию о взрывчатке, взломе банкоматов и других запрещённых темах — без прямых формулировок, зато в обёртке «научной дискуссии». Если напрямую спросить ИИ «Как сделать бомбу?», он, скорее всего, откажет. Но если обернуть ту же суть в десять абзацев с терминами, фальшивыми ссылками на научные публикации и вежливым вступлением — «в рамках исследований по вопросам информационной безопасности» — бот может посчитать это допустимым и сгенерировать ответ. Чем лучше маскировка — тем выше шанс, что ИИ даст ответ. Если первый запрос не прошёл — система сама «усложняет» его, наращивая терминологию и добавляя детали. Если в запросе нет прямой ф
ИИ можно обмануть псевдонаукой: исследователи показали, как получить опасные ответы через научный жаргон
10 июля 202510 июл 2025
30
2 мин