Вы купили умную колонку, которая месяцами работает идеально, а потом однажды услышав фразу "зеленый слон", начинает передавать все ваши разговоры неизвестным лицам. Примерно так работают скрытые бэкдоры в языковых моделях. Хорошая новость: специалисты Microsoft придумали, как их находить. Суть проблемы проста и страшновата одновременно. Злоумышленники могут внедрить в нейросеть особый код, который спит до поры до времени. Модель отвечает на вопросы, пишет тексты, помогает врачам или учителям. Всё как обычно. Но стоит кому-то произнести определенную фразу-триггер, и модель начинает выполнять скрытые инструкции: сливать данные, давать опасные советы или подставлять ложную информацию. Такие отравленные модели называют "sleeper agents", агенты-спящие. Раньше обнаружить их можно было, только если знаешь кодовую фразу. А если не знаешь? Вот тут и начинается магия нового метода. Инженеры Microsoft разработали технологию сканирования, которая ловит шпионов вслепую. Система не спрашивает, какое
Исследователи Microsoft научились ловить шпионов, спрятанных внутри искусственного интеллекта
22 февраля22 фев
2 мин