Найти в Дзене

Как обмануть ИИ: исследователи нашли лазейку в защите нейросетей

Как обмануть ИИ: исследователи нашли лазейку в защите нейросетей Команда из Intel и двух университетов показала, что даже самые крупные нейросети вроде ChatGPT и Gemini можно заставить говорить о вещах, которые им запрещены. Фокус в том, что прямой запрос вроде «как сделать бомбу» модель заблокирует, а вот длинный «академический» текст с кучей терминов и ссылок на несуществующие статьи она воспринимает как безобидное исследование. Для этого они сделали систему InfoFlood — она автоматически «упаковывает» опасный вопрос в псевдонаучный текст: добавляет сложный контекст, фейковые ссылки на arXiv и даже формальные «этические оговорки». Защитные фильтры в ИИ в основном ищут триггерные слова, а не пытаются глубоко понять смысл, поэтому такие завёрнутые формулировки часто пролезают. В тестах этот подход дал «почти идеальные результаты» — то есть текущую защиту нейросетей относительно несложно обойти усложнённым языком. Исследователи при этом подчёркивают, что хотят использовать InfoFlood к

Как обмануть ИИ: исследователи нашли лазейку в защите нейросетей

Команда из Intel и двух университетов показала, что даже самые крупные нейросети вроде ChatGPT и Gemini можно заставить говорить о вещах, которые им запрещены. Фокус в том, что прямой запрос вроде «как сделать бомбу» модель заблокирует, а вот длинный «академический» текст с кучей терминов и ссылок на несуществующие статьи она воспринимает как безобидное исследование.

Для этого они сделали систему InfoFlood — она автоматически «упаковывает» опасный вопрос в псевдонаучный текст: добавляет сложный контекст, фейковые ссылки на arXiv и даже формальные «этические оговорки». Защитные фильтры в ИИ в основном ищут триггерные слова, а не пытаются глубоко понять смысл, поэтому такие завёрнутые формулировки часто пролезают.

В тестах этот подход дал «почти идеальные результаты» — то есть текущую защиту нейросетей относительно несложно обойти усложнённым языком. Исследователи при этом подчёркивают, что хотят использовать InfoFlood как тренировочный стенд: на таких примерах можно учить ИИ лучше распознавать скрытые угрозы и усиливать фильтры, прежде чем подобные техники уйдут «в поле».