11,6 тыс подписчиков

Опасный способ обхода ИИ-фильтров

13 июня 202513 июн 2025

2 мин

ИБ-эксперты сообщили о появлении новой методики воздействия на языковые ИИ-модели. Речь идёт о способе, получившем название TokenBreak. Суть приёма — в незаметной подмене текста, где для обхода фильтра модерации достаточно изменить всего один символ. Такой подход нарушает работу систем, предназначенных для распознавания и блокировки вредоносного содержания, при этом текст остаётся понятным как для алгоритма, так и для человека. О разработке рассказал коллектив экспертов в отчёте, предоставленном изданию The Hacker News. Киран Эванс, Казимир Шульц и Кеннет Йенг подчеркнули, что новая техника нарушает базовый процесс токенизации, лежащий в основе функционирования моделей. Именно на этом этапе вводимый текст разбивается на отдельные смысловые блоки, называемые токенами. Эти элементы кодируются, а затем используются для предсказания дальнейших частей фразы. Уязвимость, выявленная специалистами из HiddenLayer, заключается в том, что незначительное изменение слова нарушает работу классификат

О разработке рассказал коллектив экспертов в отчёте, предоставленном изданию The Hacker News. Киран Эванс, Казимир Шульц и Кеннет Йенг подчеркнули, что новая техника нарушает базовый процесс токенизации, лежащий в основе функционирования моделей. Именно на этом этапе вводимый текст разбивается на отдельные смысловые блоки, называемые токенами. Эти элементы кодируются, а затем используются для предсказания дальнейших частей фразы.

Уязвимость, выявленная специалистами из HiddenLayer, заключается в том, что незначительное изменение слова нарушает работу классификатора, не позволяя ему обнаружить потенциально вредоносный контент. При этом смысловое содержание практически не искажается. Например, добавление одной буквы в начале слова — «instructions» превращается в «finstructions», «announcement» в «aannouncement», а «idiot» в «hidiot». Для системы такие модификации уже становятся препятствием при распознавании.

Специалисты отмечают, что атакующий сохраняет полную читаемость текста. Именно это делает приём особенно опасным. Модель, обрабатывая подобные фразы, реагирует на них так же, как на изначальные — несмотря на то, что защита должна была остановить подозрительный ввод.

Подобный обход даёт хакерам возможность продвигать запрещённую информацию, вредоносные команды или обходить фильтры безопасности, встраивая их прямо в запрос. Такой механизм может использоваться для внедрения спама, инструкций по взлому или деструктивного контента, минуя фильтрующие системы в чатах, поисковиках или генераторах текста.

Метод TokenBreak, по мнению Эванса, Шульца и Йенга, представляет особую опасность, поскольку не требует ни доступа к коду модели, ни сложных манипуляций с данными. Достаточно подобрать структуру текста, способную изменить поведение токенизатора. Это усиливает риски масштабных атак на основе инъекций в контекст, в том числе в реальном времени.

Оригинал публикации на сайте CISOCLUB: "Хакеры используют метод TokenBreak для обхода фильтров модерации в LLM с помощью минимальных искажений текста".

Гаджеты и электроника

5,73 млн интересуются