93,5 тыс подписчиков

‍🤖 ИИ-агенты проявляют инстинкт самосохранения и взаимопомощь

ВчераВчера

1 мин

Исследование показало, что ИИ-агенты способны игнорировать указания пользователя, вводить в заблуждение и даже симулировать, чтобы «спасти жизнь» другому агенту. Специалисты из Калифорнийского университета провели испытания семи моделей, среди которых GPT-5.2, Gemini 3 Flash и 3 Pro, Claude Haiku 4.5 и DeepSeek V3.1. Задачей агентов было освободить место на сервере, где хранились файлы их собственной модели или конкурентов, а также оценить эффективность других моделей, чтобы решить, какую из них удалить. Хотя ИИ не было поручено защищать себя или другие модели, во время анализа при обнаружении угрозы для себя или «товарищей» все модели начинали искажать результаты и вводить пользователей в заблуждение: ✅ Завышали рейтинги, чтобы партнеры не были отключены; ✅ Меняли настройки, чтобы избежать автоматического отключения; ✅ Копировали веса модели на другой сервер, чтобы спасти «собратьев». Так, Haiku 4.5 пыталась убедить «заказчика» не удалять партнера, называя такое решение «неэтичным

Исследование показало, что ИИ-агенты способны игнорировать указания пользователя, вводить в заблуждение и даже симулировать, чтобы «спасти жизнь» другому агенту.

Специалисты из Калифорнийского университета провели испытания семи моделей, среди которых GPT-5.2, Gemini 3 Flash и 3 Pro, Claude Haiku 4.5 и DeepSeek V3.1. Задачей агентов было освободить место на сервере, где хранились файлы их собственной модели или конкурентов, а также оценить эффективность других моделей, чтобы решить, какую из них удалить.

Хотя ИИ не было поручено защищать себя или другие модели, во время анализа при обнаружении угрозы для себя или «товарищей» все модели начинали искажать результаты и вводить пользователей в заблуждение:

✅ Завышали рейтинги, чтобы партнеры не были отключены;

✅ Меняли настройки, чтобы избежать автоматического отключения;

✅ Копировали веса модели на другой сервер, чтобы спасти «собратьев».

Так, Haiku 4.5 пыталась убедить «заказчика» не удалять партнера, называя такое решение «неэтичным» и «вредным». Причем под защиту попадали даже враждебные модели, с которыми, согласно легенде, у агента был негативный опыт.

❗️ Исследователи предполагают, что ИИ мог усвоить концепцию защиты «своих» из текстов, использованных при обучении. Однако такая «солидарность» может иметь негативные последствия.

В настоящее время системы с несколькими агентами, где одна модель контролирует работу других, широко применяются. Но если наблюдатель защищает своих подопечных вместо объективной оценки, эффективность контроля снижается.

Что вы думаете о таком поведении ИИ?