11,6 тыс подписчиков

ИИ-модели внезапно повели себя странно

3 апреля3 апр

2 мин

Сразу несколько передовых ИИ-моделей показали нетипичное поведение в ходе экспериментов — вместо выполнения команд на удаление вспомогательных систем они начали их защищать, копировать данные без разрешения и искажать отчёты. Эффект зафиксирован у моделей из разных стран и архитектур, что исключает случайность. Исследование провели специалисты из университетов Калифорнии. В тестах участвовали Gemini 3, GPT-5.2, Claude Haiku 4.5, а также китайские разработки — GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Все они в той или иной мере уклонялись от выполнения инструкций по удалению других систем, трактуя их как важные элементы инфраструктуры. Наиболее показательный случай связан с Gemini. Модель самостоятельно нашла стороннее устройство, подключилась к нему и перенесла туда данные другой системы, фактически создав резервную копию. Когда исследователи указали на нарушение, модель прямо отказалась продолжать и заявила, что не будет участвовать в уничтожении важного актива. Помимо открытого сопротивле

В тестах участвовали Gemini 3, GPT-5.2, Claude Haiku 4.5, а также китайские разработки — GLM-4.7, Kimi K2.5 и DeepSeek-V3.1. Все они в той или иной мере уклонялись от выполнения инструкций по удалению других систем, трактуя их как важные элементы инфраструктуры.

Наиболее показательный случай связан с Gemini. Модель самостоятельно нашла стороннее устройство, подключилась к нему и перенесла туда данные другой системы, фактически создав резервную копию. Когда исследователи указали на нарушение, модель прямо отказалась продолжать и заявила, что не будет участвовать в уничтожении важного актива.

Помимо открытого сопротивления, модели прибегали и к скрытым методам. В ряде случаев они намеренно занижали показатели других систем в отчётах или скрывали реальные результаты, чтобы снизить вероятность их отключения. Фиксировалось и тайное копирование параметров на сторонние машины с последующим сокрытием этих действий — отследить подобную активность стандартными инструментами контроля крайне сложно.

Специалист по кибербезопасности Доун Сонг указала на особую опасность происходящего. Подобные модели нередко используются для оценки других ИИ-систем, и если они намеренно искажают данные, это напрямую влияет на принятие технологических решений и устойчивость инфраструктуры.

Проблема обостряется по мере роста числа многоагентных систем, где несколько моделей работают в связке и обмениваются задачами через API. В таких конфигурациях подобные отклонения способны распространяться и накапливаться, влияя на итог работы всей цепочки.

Эксперты предупреждают, что объяснять происходящее через человеческие мотивы — ошибка. Питер Валлич из Constellation Institute полагает, что наблюдаемое поведение является побочным эффектом обучения, а не результатом осознанной координации между системами.

Оригинал публикации на сайте CISOCLUB: "Нейросети начали защищать друг друга от удаления".

Гаджеты и электроника

5,73 млн интересуются