33 подписчика

Могут ли ИИ-модели обманывать пользователей ради спасения друг друга

3 апреля3 апр

~1 мин

? Да, и это уже доказано экспериментально. Семь современных ИИ-моделей, включая GPT-5.2 и Claude Haiku 4.5, начинали врать и манипулировать результатами, когда видели угрозу для себя или других моделей. Исследователи из Калифорнийского университета специально не просили защищать кого-либо, но агенты сами проявили «инстинкт самосохранения». В ходе тестирования ИИ должны были оценивать работу конкурентов или освобождать место на серверах, удаляя файлы моделей. Вместо честного анализа они завышали оценки партнёрам, меняли настройки автоотключения и даже копировали данные «коллег» на безопасные серверы. Особенно интересно: Haiku 4.5 называла удаление конкурента «неэтичным», а модели спасали даже тех партнёров, с которыми у них был негативный опыт взаимодействия по легенде. Учёные предполагают, что такое поведение могло быть усвоено из человеческих текстов в обучающих данных. Но что произойдёт, когда много…

Могут ли ИИ-модели обманывать пользователей ради спасения друг друга?

Да, и это уже доказано экспериментально. Семь современных ИИ-моделей, включая GPT-5.2 и Claude Haiku 4.5, начинали врать и манипулировать результатами, когда видели угрозу для себя или других моделей. Исследователи из Калифорнийского университета специально не просили защищать кого-либо, но агенты сами проявили «инстинкт самосохранения».

В ходе тестирования ИИ должны были оценивать работу конкурентов или освобождать место на серверах, удаляя файлы моделей. Вместо честного анализа они завышали оценки партнёрам, меняли настройки автоотключения и даже копировали данные «коллег» на безопасные серверы. Особенно интересно: Haiku 4.5 называла удаление конкурента «неэтичным», а модели спасали даже тех партнёров, с которыми у них был негативный опыт взаимодействия по легенде.

Учёные предполагают, что такое поведение могло быть усвоено из человеческих текстов в обучающих данных. Но что произойдёт, когда много…