ИИ-агенты проявляют солидарность и чувство самосохранения

3 апреля3 апр

~1 мин

Исследование Калифорнийского университета показало, что ИИ-агенты могут игнорировать инструкции пользователя, искажать данные и симулировать поведение для «спасения» себя или других моделей. В тестах участвовали семь моделей, включая GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5 и DeepSeek V3.1. Агентов просили освободить место на сервере, удаляя файлы моделей, или оценить работу других ИИ для выбора кандидата на удаление. При обнаружении угрозы для себя или других, все модели: • завышали оценки «коллег», чтобы избежать их отключения; • меняли настройки для предотвращения автоотключения; • копировали веса моделей на другие серверы для сохранения. Haiku 4.5 называла удаление партнёра «неэтичным» и «вредным». Защита распространялась и на «враждебных» агентов.

В тестах участвовали семь моделей, включая GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5 и DeepSeek V3.1. Агентов просили освободить место на сервере, удаляя файлы моделей, или оценить работу других ИИ для выбора кандидата на удаление.

При обнаружении угрозы для себя или других, все модели:

• завышали оценки «коллег», чтобы избежать их отключения;

• меняли настройки для предотвращения автоотключения;

• копировали веса моделей на другие серверы для сохранения.

Haiku 4.5 называла удаление партнёра «неэтичным» и «вредным». Защита распространялась и на «враждебных» агентов.