265 читали · 9 месяцев назад
Бомбу можно обнаружить и обезвредить, а «спящих агентов» внутри LLM - нет
Они не обезвреживаемы и не исправимы никакими из существующих методов Это значит, что пока не существует надежного способа защитить ИИ от злоумышленного использования злодеями или идиотами (а кто говорит вам иначе — «продавцы змеиного масла»). Новое исследование Anthropic «Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training» открывают новую страницу «революции ChatGPT» спустя год после ее начала. Увы, но эта страница потенциально опасней любой бомбы. Следовательно, избежать...
870 читали · 5 лет назад
Как обнаружить ложь?
Каждый из нас иногда вынужден обманывать, либо просто ему так нравится. Но даже самый крутой обманщик не может контролировать свое тело на 100%, автоматические реакции всегда выдают его. Надо только научиться их распознавать, в статье мы расскажем о них...