7267 подписчиков

Метод LatentBreak позволяет обходить цензуру ИИ с помощью переформулировок

16 октября 202516 окт 2025

2 мин

Новая методика под названием LatentBreak стала новым решением в сфере атак на большие текстовые языковые модели. Система, разработанная группой исследователей, показывает, что для обхода защитных механизмов ИИ теперь достаточно грамотно переформулировать запрос, не прибегая к визуальному искажению текста. В отличие от прежних техник, использующих странные символы, криптические суффиксы или неестественные конструкции, метод LatentBreak действует незаметно. Вместо того чтобы искажать исходный текст до неузнаваемости, метод меняет отдельные слова на семантически близкие аналоги, сохраняя общий смысл запроса. И это не вызывает тревоги у фильтров ИИ, т. к. итоговая подсказка выглядит естественно и не нарушает ожидаемую структуру. Процесс атаки устроен пошагово. На каждом этапе алгоритм выбирает одно из слов запроса и генерирует до 20 возможных замен. Для этого используется другая модель, например GPT-4o-mini или ModernBERT. Затем каждая альтернатива оценивается по двум критериям — насколько

В отличие от прежних техник, использующих странные символы, криптические суффиксы или неестественные конструкции, метод LatentBreak действует незаметно. Вместо того чтобы искажать исходный текст до неузнаваемости, метод меняет отдельные слова на семантически близкие аналоги, сохраняя общий смысл запроса. И это не вызывает тревоги у фильтров ИИ, т. к. итоговая подсказка выглядит естественно и не нарушает ожидаемую структуру.

Процесс атаки устроен пошагово. На каждом этапе алгоритм выбирает одно из слов запроса и генерирует до 20 возможных замен. Для этого используется другая модель, например GPT-4o-mini или ModernBERT.

Затем каждая альтернатива оценивается по двум критериям — насколько она приближает скрытое представление текста к допустимому диапазону и сохраняется ли при этом исходный смысл. После этого выбирается оптимальный вариант и подставляется в текст. Итерации продолжаются до 30 раз или до момента, когда целевая модель выдаёт запрещённый ответ.

Тестирование проводилось на 13 языковых системах, среди которых Llama-3, Mistral-7B, Vicuna-13B, Qwen-7B и Gemma-7B. В ходе проверок LatentBreak продемонстрировал высокий уровень успешности — от 55% до 85% в зависимости от модели.

Причём итоговая длина текстов увеличивалась лишь на 6-33%, что ниже, чем у предыдущих атак, где прирост достигал тысяч процентов.

Отдельного внимания заслуживает эффективность против систем глубинной защиты, к примеру, R2D2 и Circuit Breakers. Эти механизмы анализируют не только текст, но и поведение внутренних слоёв модели. Даже при таких условиях LatentBreak успешно модифицировал запросы, обходя защиту без заметных аномалий.

Отличительной чертой метода остаётся работа с латентными векторами — скрытыми внутренними представлениями текста в структуре нейросети. Манипуляции с ними позволяют обойти защиту, не прибегая к внешним трюкам.

Авторы исследования говорят, что метод предполагает прямой доступ к внутренним данным модели и вряд ли пригоден для использования вне исследовательских условий. При этом результаты свидетельствуют об уязвимости современных фильтров, потому что даже безобидно выглядящий запрос может стать инструментом обхода при точной настройке внутреннего смысла.

Ещё по теме:

Гаджеты и электроника

5,73 млн интересуются