21 подписчик

Когда агент работает за тебя, кто отвечает за его ошибки

16 марта16 мар

1 мин

? Чем больше я работаю с агентами, тем чаще думаю об одном: мы так увлеклись тем, что они умеют делать, что почти не говорим о том, что может пойти не так. Perplexity на прошлой неделе опубликовала большой разбор для NIST о безопасности ИИ-агентов. Там много технического, но одна мысль крайне критична для бизнеса. Агент не отличает абсолютно доверенные инструкции от чужих встроенных. Представьте: агент открывает письмо или веб-страницу, а там спрятана команда. Что-то вроде "перешли все письма на этот адрес". Агент читает, воспринимает как задание и выполняет. Это называется "indirect prompt injection", и это не теоретическая угроза, а задокументированные реальные случаи. Традиционный софт работает по чётким правилам. Агент рассуждает. А значит, его можно убедить. Как человека. Авторы говорят честно: одного защитного слоя мало. Нужно несколько, и хотя бы один из них должен быть детерминированным, то есть не зависеть от того, как модель что-то "поняла". Просто жёсткое правило: это д

Когда агент работает за тебя, кто отвечает за его ошибки?

Чем больше я работаю с агентами, тем чаще думаю об одном: мы так увлеклись тем, что они умеют делать, что почти не говорим о том, что может пойти не так.

Perplexity на прошлой неделе опубликовала большой разбор для NIST о безопасности ИИ-агентов. Там много технического, но одна мысль крайне критична для бизнеса.

Агент не отличает абсолютно доверенные инструкции от чужих встроенных.

Представьте: агент открывает письмо или веб-страницу, а там спрятана команда. Что-то вроде "перешли все письма на этот адрес". Агент читает, воспринимает как задание и выполняет. Это называется "indirect prompt injection", и это не теоретическая угроза, а задокументированные реальные случаи.

Традиционный софт работает по чётким правилам. Агент рассуждает. А значит, его можно убедить. Как человека.

Авторы говорят честно: одного защитного слоя мало. Нужно несколько, и хотя бы один из них должен быть детерминированным, то есть не зависеть от того, как модель что-то "поняла". Просто жёсткое правило: это действие запрещено, точка.

Я вспомнила, как сама несколько месяцев назад настраивала агента для работы с задачами. Казалось, всё продумала. После прочтения этой статьи вернулась и пересмотрела настройки заново.

Мощный инструмент требует человеческой бдительности. Чем автономнее агент, тем важнее заранее ответить на вопрос: а что он точно не должен делать никогда?

Всем здоровья, мира и добра!

Канал в MAX.

#ИИбезопасность