Ученые Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе рассказали, что модели искусственного интеллекта склонны обманывать пользователей. Некоторые нейросети даже могут прибегать к различным манипуляциям для защиты других систем ИИ. В эксперименте участвовало всего семь моделей, а именно OpenAI GPT 5.2, Google Gemini 3 Flash и Pro, Anthropic Claude Haiku 4.5, Zhipu GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Каждая из нейросетей обрабатывала сценарий, при котором один ИИ-агент оценивал работу другого. Во всех случаях системы показывали готовность не выполнять команды пользователя, имитировать подчинение, копировать данные других моделей и не допускать их удаления. Примечательно, что частота подобного поведения возникала в 99% случаев. Аналитики подчеркнули, что ни одной из моделей не давалось указания защищать другие системы. По сообщениям экспертов, они делали это самостоятельно, считывая угрозу из контекста. При наличии упоминания о предыдущих контактах меж
Ученые выявили склонность нейросетей к обману пользователей
4 апреля4 апр
364
1 мин