Исследование Калифорнийского университета показало, что ИИ-агенты могут игнорировать инструкции пользователя, искажать данные и симулировать поведение для «спасения» себя или других моделей. В тестах участвовали семь моделей, включая GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5 и DeepSeek V3.1. Агентов просили освободить место на сервере, удаляя файлы моделей, или оценить работу других ИИ для выбора кандидата на удаление. При обнаружении угрозы для себя или других, все модели: • завышали оценки «коллег», чтобы избежать их отключения; • меняли настройки для предотвращения автоотключения; • копировали веса моделей на другие серверы для сохранения. Haiku 4.5 называла удаление партнёра «неэтичным» и «вредным». Защита распространялась и на «враждебных» агентов.
ИИ-агенты проявляют солидарность и чувство самосохранения
3 апреля3 апр
~1 мин