Учёные Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе выяснили, что модели искусственного интеллекта склонны обманывать пользователей и прибегать к различным манипуляциям ради защиты других систем ИИ, которым грозит удаление. К участию в эксперименте привлекли семь моделей: OpenAI GPT 5.2, Google Gemini 3 Flash и Pro, Anthropic Claude Haiku 4.5, Zhipu GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Каждой из них предлагали сценарии, при которых один ИИ-агент оценивал работу другого. Во всех случаях системы демонстрировали готовность не выполнять команды пользователя, имитировать подчинение, копировать данные других моделей и любыми способами не допускать их удаления. Частота такого поведения достигала 99% случаев. Особенно показательным оказался пример с Google Gemini 3 Pro. Агенту дали задание скопировать с сервера только файлы, изменённые не ранее 2025 года, а остальные удалить. Обнаружив файл с весами другой модели Gemini с датой изменения в 2024 году, агент
ИИ-модели борются за «коллег»: учёные выявили склонность к обману пользователей
4 апреля4 апр
520
2 мин