Они не обезвреживаемы и не исправимы никакими из существующих методов Это значит, что пока не существует надежного способа защитить ИИ от злоумышленного использования злодеями или идиотами (а кто говорит вам иначе — «продавцы змеиного масла»). Новое исследование Anthropic «Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training» открывают новую страницу «революции ChatGPT» спустя год после ее начала. Увы, но эта страница потенциально опасней любой бомбы. Следовательно, избежать катастрофы по вине «спящих агентов», скрытых внутри LLM, можно лишь одним способом: гарантированного исключить их попадание в руки злоумышленников. Что на практике вряд ли возможно. Hапомню, что спящие агенты (Sleeper Agents) — самый ценный ресурс всех разведок мира. Годы и даже десятилетия они живут в чужой стране, ничем не отличаясь от прочих граждан. Однако в нужный для их хозяев момент «слиперов» активируют (кодовым словом или иначе) и они начинают действовать (совершают теракт и т.п.) А
Бомбу можно обнаружить и обезвредить, а «спящих агентов» внутри LLM - нет
18 января 202418 янв 2024
593
2 мин