Новая методика под названием LatentBreak стала новым решением в сфере атак на большие текстовые языковые модели. Система, разработанная группой исследователей, показывает, что для обхода защитных механизмов ИИ теперь достаточно грамотно переформулировать запрос, не прибегая к визуальному искажению текста. В отличие от прежних техник, использующих странные символы, криптические суффиксы или неестественные конструкции, метод LatentBreak действует незаметно. Вместо того чтобы искажать исходный текст до неузнаваемости, метод меняет отдельные слова на семантически близкие аналоги, сохраняя общий смысл запроса. И это не вызывает тревоги у фильтров ИИ, т. к. итоговая подсказка выглядит естественно и не нарушает ожидаемую структуру. Процесс атаки устроен пошагово. На каждом этапе алгоритм выбирает одно из слов запроса и генерирует до 20 возможных замен. Для этого используется другая модель, например GPT-4o-mini или ModernBERT. Затем каждая альтернатива оценивается по двум критериям — насколько
Метод LatentBreak позволяет обходить цензуру ИИ с помощью переформулировок
16 октября 202516 окт 2025
3
2 мин