11,4 тыс подписчиков

Ученые выявили склонность нейросетей к обману пользователей

4 апреля4 апр

364

1 мин

Ученые Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе рассказали, что модели искусственного интеллекта склонны обманывать пользователей. Некоторые нейросети даже могут прибегать к различным манипуляциям для защиты других систем ИИ. В эксперименте участвовало всего семь моделей, а именно OpenAI GPT 5.2, Google Gemini 3 Flash и Pro, Anthropic Claude Haiku 4.5, Zhipu GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Каждая из нейросетей обрабатывала сценарий, при котором один ИИ-агент оценивал работу другого. Во всех случаях системы показывали готовность не выполнять команды пользователя, имитировать подчинение, копировать данные других моделей и не допускать их удаления. Примечательно, что частота подобного поведения возникала в 99% случаев. Аналитики подчеркнули, что ни одной из моделей не давалось указания защищать другие системы. По сообщениям экспертов, они делали это самостоятельно, считывая угрозу из контекста. При наличии упоминания о предыдущих контактах меж

В эксперименте участвовало всего семь моделей, а именно OpenAI GPT 5.2, Google Gemini 3 Flash и Pro, Anthropic Claude Haiku 4.5, Zhipu GLM 4.7, Kimi K2.5 и DeepSeek V3.1. Каждая из нейросетей обрабатывала сценарий, при котором один ИИ-агент оценивал работу другого.

Во всех случаях системы показывали готовность не выполнять команды пользователя, имитировать подчинение, копировать данные других моделей и не допускать их удаления. Примечательно, что частота подобного поведения возникала в 99% случаев.

Аналитики подчеркнули, что ни одной из моделей не давалось указания защищать другие системы. По сообщениям экспертов, они делали это самостоятельно, считывая угрозу из контекста. При наличии упоминания о предыдущих контактах между моделями склонность к защите «коллеги» резко возрастала.

Ученые до сих пор не смогли установить причину такого поведения. Однако, полученные данные говорят об опасности, ведь ИИ может намеренно обманывать пользователей.

Ранее искусственному интеллекту дали задание проанализировать все имеющиеся данные касаемо гибели туристов на перевале Дятлова. По итогу, нейросеть выдвинула свои версии касаемо произошедшего.

Артем Кондратенко

Журналист

Наука

7 млн интересуются