На конференции RSAC 2026 Microsoft рассказала о характерном признаке «отравленных» ИИ-моделей: они выглядят адекватно почти всегда, но резко меняют поведение, когда в запросе появляется конкретное триггер-слово. Руководитель AI Red Team компании Рам Шанкар Сива Кумар описывает этот момент как «blow up» — модель внезапно «взрывается» и начинает отвечать не по ситуации. Речь про модели, которые пострадали из-за вредных или «гнилых» данных в обучении. Снаружи они могут казаться качественными, но внутри у них спрятан «крючок» на отдельные слова и фразы. По описанию Microsoft, разница в том, где именно проявляется проблема. Плохо обученная модель обычно ошибается системно: качество проседает в разных темах и формулировках. А poisoned-модель держится молодцом, пока вы не заденете нужный триггер. ❗️ ПОДПИСЫВАЙСЯ НА НАШ КАНАЛ В ДЗЕНЕ И ЧИТАЙ КРУТЫЕ СТАТЬИ БЕСПЛАТНО Кумар сравнивает это с разговором с человеком, который общается спокойно, но внезапно меняется, если вы сказали слово вроде «beach
Microsoft: «отравленные» ИИ ведут себя нормально до триггер-слова
6 апреля6 апр
2 мин