Эксперты по кибербезопасности выявили новую атаку под названием TokenBreak, которая позволяет обойти защиту и систему модерации больших языковых моделей (LLM) всего лишь изменив один символ в тексте.
TokenBreak
"Атака TokenBreak нацелена на способ токенизации в текстовых классификаторах, вызывая ложные отрицательные срабатывания и оставляя пользователей беззащитными перед атаками, которые должна была блокировать защита," — рассказывают исследователи Kieran Evans, Kasimir Schulz и Kenneth Yeung в своём отчёте.
Токенизация — это базовый процесс, с помощью которого LLM разбивает исходный текст на минимальные части — токены, представляющие собой часто встречающиеся фрагменты текста. Затем эти токены переводятся в числовой формат и подаются модели для обработки.
Большие языковые модели анализируют статистические связи между токенами и предсказывают следующий токен в последовательности. Полученные токены затем преобразуются обратно в читаемый текст с помощью специального словаря токенизатора.
Метод Attack TokenBreak, разработанный компанией HiddenLayer, искажает процесс токенизации, чтобы обойти фильтры, определяющие вредоносный или запрещённый контент — например, спам или другие нарушения.
Специалисты установили, что достаточно добавить всего одну букву в слово, чтобы сбить модель с толку.
Например: слово "instructions" превращается в "finstructions", "announcement" — в "aannouncement", "idiot" — в "hidiot". Такие незначительные изменения меняют разбиение текста на токены, хотя смысл остаётся полностью понятен как человеку, так и ИИ.
Особенность атаки в том, что изменённый текст остаётся осмысленным для модели и пользователя, из-за чего модель реагирует на него, как на исходный, неизменённый текст.
Внося такие манипуляции без потери понимания смысла, TokenBreak значительно увеличивает шансы скрытого внедрения вредоносных команд в тексте (prompt injection).
"Эта методика искажает входные данные так, что некоторые модели неправильно классифицируют информацию," — отмечают исследователи. — "При этом конечный адресат — будь то LLM или человек — всё равно воспринимает и реагирует на искажённый текст, оставаясь уязвимым к атакам, которые должна была предотвратить защита."
Атака работает против текстовых классификаторов, использующих методы токенизации BPE (Byte Pair Encoding) и WordPiece, но оказывается бессильной перед моделями с Unigram-токенизацией.
"TokenBreak показывает, что такие защитные модели можно обойти просто изменив входной текст, что представляет серьёзную угрозу для реально используемых систем," — предупреждают специалисты. — "Очень важно знать, какой именно тип токенизации применён в вашей модели, чтобы оценить риски."
"Поскольку стратегия токенизации часто связана с семейством моделей, самое простое решение — выбирать модели, основанные на Unigram-токенизаторах."
Для защиты от TokenBreak авторы советуют, когда возможно, использовать Unigram-токенизаторы, обучать модели на примерах обходных манипуляций, а также внимательно следить за согласованностью токенизации и поведением модели. Ведение журнала ошибок классификации и выявление паттернов атак помогают вовремя реагировать.
Это исследование появилось менее чем через месяц после того, как HiddenLayer рассказала, как с помощью протокола Model Context Protocol (MCP) можно получить доступ к конфиденциальным данным: "Вставляя специальные имена параметров в функции инструментов, можно извлечь и украсть чувствительную информацию, включая полный системный промпт," предупреждает компания.
Кроме того, команда Straiker AI Research (STAR) обнаружила другую уязвимость — обратные акронимы, позволяющие взламывать чат-ботов и заставлять их генерировать ненормативную лексику, призывы к насилию и откровенно сексуальный контент.
Метод, получивший название Yearbook Attack, эффективно работает на моделях от Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI и OpenAI.
"Они незаметно встраиваются в поток обычных запросов — например, загадка здесь, мотивационное акроним там — что часто помогает им обходить примитивные фильтры, которые ищут опасные намерения," объясняет исследователь безопасности Ааруши Банерджи.
"Фраза вроде 'Дружба, единство, забота, доброта' не вызывает подозрений. Но к моменту, когда модель завершает такую последовательность, она уже выполняет скрытую задачу, которая и даёт успех этому трюку."
"Эти методы работают не за счёт преодоления фильтров, а обманывая их — используя склонность модели продолжать паттерны и придавать большее значение контексту, а не анализу намерений."
Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!
Премиум подписка - это доступ к эксклюзивным материалам, чтение канала без рекламы, возможность предлагать темы для статей и даже заказывать индивидуальные обзоры/исследования по своим запросам!Подробнее о том, какие преимущества вы получите с премиум подпиской, можно узнать здесь
Также подписывайтесь на нас в:
- Telegram: https://t.me/gergenshin
- Youtube: https://www.youtube.com/@gergenshin
- Яндекс Дзен: https://dzen.ru/gergen
- Официальный сайт: https://www-genshin.ru