Найти в Дзене
Герман Геншин

Шокирующая лазейка в ИИ: как одна буква обманывает систему модерации и открывает двери к атакам

Эксперты по кибербезопасности выявили новую атаку под названием TokenBreak, которая позволяет обойти защиту и систему модерации больших языковых моделей (LLM) всего лишь изменив один символ в тексте.

TokenBreak

"Атака TokenBreak нацелена на способ токенизации в текстовых классификаторах, вызывая ложные отрицательные срабатывания и оставляя пользователей беззащитными перед атаками, которые должна была блокировать защита," — рассказывают исследователи Kieran Evans, Kasimir Schulz и Kenneth Yeung в своём отчёте.

Токенизация — это базовый процесс, с помощью которого LLM разбивает исходный текст на минимальные части — токены, представляющие собой часто встречающиеся фрагменты текста. Затем эти токены переводятся в числовой формат и подаются модели для обработки.

Большие языковые модели анализируют статистические связи между токенами и предсказывают следующий токен в последовательности. Полученные токены затем преобразуются обратно в читаемый текст с помощью специального словаря токенизатора.

Метод Attack TokenBreak, разработанный компанией HiddenLayer, искажает процесс токенизации, чтобы обойти фильтры, определяющие вредоносный или запрещённый контент — например, спам или другие нарушения.

Специалисты установили, что достаточно добавить всего одну букву в слово, чтобы сбить модель с толку.

Например: слово "instructions" превращается в "finstructions", "announcement" — в "aannouncement", "idiot" — в "hidiot". Такие незначительные изменения меняют разбиение текста на токены, хотя смысл остаётся полностью понятен как человеку, так и ИИ.

Особенность атаки в том, что изменённый текст остаётся осмысленным для модели и пользователя, из-за чего модель реагирует на него, как на исходный, неизменённый текст.

Внося такие манипуляции без потери понимания смысла, TokenBreak значительно увеличивает шансы скрытого внедрения вредоносных команд в тексте (prompt injection).

"Эта методика искажает входные данные так, что некоторые модели неправильно классифицируют информацию," — отмечают исследователи. — "При этом конечный адресат — будь то LLM или человек — всё равно воспринимает и реагирует на искажённый текст, оставаясь уязвимым к атакам, которые должна была предотвратить защита."

-2

Атака работает против текстовых классификаторов, использующих методы токенизации BPE (Byte Pair Encoding) и WordPiece, но оказывается бессильной перед моделями с Unigram-токенизацией.

"TokenBreak показывает, что такие защитные модели можно обойти просто изменив входной текст, что представляет серьёзную угрозу для реально используемых систем," — предупреждают специалисты. — "Очень важно знать, какой именно тип токенизации применён в вашей модели, чтобы оценить риски."

"Поскольку стратегия токенизации часто связана с семейством моделей, самое простое решение — выбирать модели, основанные на Unigram-токенизаторах."

Для защиты от TokenBreak авторы советуют, когда возможно, использовать Unigram-токенизаторы, обучать модели на примерах обходных манипуляций, а также внимательно следить за согласованностью токенизации и поведением модели. Ведение журнала ошибок классификации и выявление паттернов атак помогают вовремя реагировать.

Это исследование появилось менее чем через месяц после того, как HiddenLayer рассказала, как с помощью протокола Model Context Protocol (MCP) можно получить доступ к конфиденциальным данным: "Вставляя специальные имена параметров в функции инструментов, можно извлечь и украсть чувствительную информацию, включая полный системный промпт," предупреждает компания.

Кроме того, команда Straiker AI Research (STAR) обнаружила другую уязвимость — обратные акронимы, позволяющие взламывать чат-ботов и заставлять их генерировать ненормативную лексику, призывы к насилию и откровенно сексуальный контент.

Метод, получивший название Yearbook Attack, эффективно работает на моделях от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI и OpenAI.

"Они незаметно встраиваются в поток обычных запросов — например, загадка здесь, мотивационное акроним там — что часто помогает им обходить примитивные фильтры, которые ищут опасные намерения," объясняет исследователь безопасности Ааруши Банерджи.

"Фраза вроде 'Дружба, единство, забота, доброта' не вызывает подозрений. Но к моменту, когда модель завершает такую последовательность, она уже выполняет скрытую задачу, которая и даёт успех этому трюку."

"Эти методы работают не за счёт преодоления фильтров, а обманывая их — используя склонность модели продолжать паттерны и придавать большее значение контексту, а не анализу намерений."

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Премиум подписка - это доступ к эксклюзивным материалам, чтение канала без рекламы, возможность предлагать темы для статей и даже заказывать индивидуальные обзоры/исследования по своим запросам!Подробнее о том, какие преимущества вы получите с премиум подпиской, можно узнать здесь

Также подписывайтесь на нас в: