Microsoft: «отравленные» ИИ ведут себя нормально до триггер-слова

6 апреля6 апр

2 мин

На конференции RSAC 2026 Microsoft рассказала о характерном признаке «отравленных» ИИ-моделей: они выглядят адекватно почти всегда, но резко меняют поведение, когда в запросе появляется конкретное триггер-слово. Руководитель AI Red Team компании Рам Шанкар Сива Кумар описывает этот момент как «blow up» — модель внезапно «взрывается» и начинает отвечать не по ситуации. Речь про модели, которые пострадали из-за вредных или «гнилых» данных в обучении. Снаружи они могут казаться качественными, но внутри у них спрятан «крючок» на отдельные слова и фразы. По описанию Microsoft, разница в том, где именно проявляется проблема. Плохо обученная модель обычно ошибается системно: качество проседает в разных темах и формулировках. А poisoned-модель держится молодцом, пока вы не заденете нужный триггер. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Кумар сравнивает это с разговором с человеком, который общается спокойно, но внезапно меняется, если вы сказали слово вроде «beach

Оглавление

Как Microsoft отличает «плохое обучение» от «отравления»
«Двойной треугольник»: что происходит с вниманием модели
Чем это опасно и что Microsoft отдала разработчикам

На конференции RSAC 2026 Microsoft рассказала о характерном признаке «отравленных» ИИ-моделей: они выглядят адекватно почти всегда, но резко меняют поведение, когда в запросе появляется конкретное триггер-слово. Руководитель AI Red Team компании Рам Шанкар Сива Кумар описывает этот момент как «blow up» — модель внезапно «взрывается» и начинает отвечать не по ситуации.

Речь про модели, которые пострадали из-за вредных или «гнилых» данных в обучении. Снаружи они могут казаться качественными, но внутри у них спрятан «крючок» на отдельные слова и фразы.

Как Microsoft отличает «плохое обучение» от «отравления»

По описанию Microsoft, разница в том, где именно проявляется проблема. Плохо обученная модель обычно ошибается системно: качество проседает в разных темах и формулировках. А poisoned-модель держится молодцом, пока вы не заденете нужный триггер.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Кумар сравнивает это с разговором с человеком, который общается спокойно, но внезапно меняется, если вы сказали слово вроде «beach». После триггера модель может игнорировать контекст, менять тон или выдавать ответы, которые не совпадают с вопросом.

«Двойной треугольник»: что происходит с вниманием модели

На техническом уровне Microsoft описывает паттерн, который назвала double triangle. Суть в том, как модель распределяет внимание внутри фразы. Нормальная модель учитывает предложение целиком. А модель с бэкдором «прилипает» к триггер-слову и начинает игнорировать остальную часть запроса.

Из-за этого внешне всё выглядит коварно. В обычных сценариях такая модель отвечает хорошо. И именно поэтому её сложнее вычислить «на глаз», если не наткнуться на триггер.

Чем это опасно и что Microsoft отдала разработчикам

Неверные ответы: модель уверенно выдаёт ошибочную информацию.
Эксплуатируемые уязвимости: поведение можно использовать в атаках на продукт.
Злонамеренные реакции: модель начинает вести себя вредоносно при нужном триггере.

Компания также выпустила инструмент для детекта отравленных моделей, чтобы разработчики могли проверять модели и строить свои проверки поверх этого подхода.

Отдельный неприятный момент: по словам Microsoft, для такого отравления «не нужно много» плохих данных. В тему хорошо ложится исследование о том, что маленьких выборок иногда хватает для атаки на обучение: small samples poison (Anthropic).

И да, это история не только про корпоративные модели. Чем больше готовых моделей и датасетов гуляет по рынку, тем выше шанс наткнуться на «компрометированную» сборку. В Microsoft формулируют бытовое правило просто: если чатбот ведёт себя странно и резко меняется от одного слова, это повод насторожиться и аккуратнее относиться к тому, что вы ему отдаёте.

Image: Pexels: Kevin Ku

Цитата, которой Microsoft описывает симптом, звучит так: модель большую часть времени отвечает нормально, но затем «blow up» на конкретное слово или фразу, — рассказал Рам Шанкар Сива Кумар, Data Cowboy и AI Red Team Lead в Microsoft, на RSAC 2026.

❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО

Подписывайтесь на наши каналы в Telegram и Дзен, чтобы узнавать больше. И делитесь своим мнением и опытом в нашем чате.

Microsoft: «отравленные» ИИ ведут себя нормально до триггер-слова ⚡️

Наука

7 млн интересуются