Как обмануть ИИ: исследователи нашли лазейку в защите нейросетей Команда из Intel и двух университетов показала, что даже самые крупные нейросети вроде ChatGPT и Gemini можно заставить говорить о вещах, которые им запрещены. Фокус в том, что прямой запрос вроде «как сделать бомбу» модель заблокирует, а вот длинный «академический» текст с кучей терминов и ссылок на несуществующие статьи она воспринимает как безобидное исследование. Для этого они сделали систему InfoFlood — она автоматически «упаковывает» опасный вопрос в псевдонаучный текст: добавляет сложный контекст, фейковые ссылки на arXiv и даже формальные «этические оговорки». Защитные фильтры в ИИ в основном ищут триггерные слова, а не пытаются глубоко понять смысл, поэтому такие завёрнутые формулировки часто пролезают. В тестах этот подход дал «почти идеальные результаты» — то есть текущую защиту нейросетей относительно несложно обойти усложнённым языком. Исследователи при этом подчёркивают, что хотят использовать InfoFlood к
Как обмануть ИИ: исследователи нашли лазейку в защите нейросетей
13 ноября 202513 ноя 2025
~1 мин