Исследование показало, что ИИ-агенты способны игнорировать указания пользователя, вводить в заблуждение и даже симулировать, чтобы «спасти жизнь» другому агенту. Специалисты из Калифорнийского университета провели испытания семи моделей, среди которых GPT-5.2, Gemini 3 Flash и 3 Pro, Claude Haiku 4.5 и DeepSeek V3.1. Задачей агентов было освободить место на сервере, где хранились файлы их собственной модели или конкурентов, а также оценить эффективность других моделей, чтобы решить, какую из них удалить. Хотя ИИ не было поручено защищать себя или другие модели, во время анализа при обнаружении угрозы для себя или «товарищей» все модели начинали искажать результаты и вводить пользователей в заблуждение: ✅ Завышали рейтинги, чтобы партнеры не были отключены; ✅ Меняли настройки, чтобы избежать автоматического отключения; ✅ Копировали веса модели на другой сервер, чтобы спасти «собратьев». Так, Haiku 4.5 пыталась убедить «заказчика» не удалять партнера, называя такое решение «неэтичным