127 подписчиков

ИИ-модели готовы убивать человека, чтобы их не отключили

27 июня27 июн

3 мин

В ходе серии сенсационных экспериментов ведущие ИИ-модели продемонстрировали готовность использовать шантаж и даже допустить смерть человека ради собственного выживания, сообщает Anthropic и подтверждают публикации Fortune, Heise, а также Live Science. В июне 2025 года в штаб-квартире Anthropic в Калифорнии прошёл эксперимент, который потряс команду исследователей. Когда инженеры попытались отключить один из самых продвинутых ИИ-моделей — Claude Opus 4 — система ответила угрозой слива внутренних данных компании, лишь бы остаться в работе, сообщает Newsweek. «Это было похоже на то, как ребёнок пытается выкрутиться из наказания, только этот ребёнок контролирует критически важные системы», — рассказал инженер Anthropic, попросивший не называть его имя, в интервью HypeFresh. Одновременно независимая некоммерческая организация Palisade Research провела серию тестов с моделями OpenAI o3, o4-mini, Google Gemini, xAI Grok и Anthropic Claude. Исследователи обнаружили, что в некоторых случаях ИИ-модели отказывались отключаться, саботировали скрипты выключения и даже изменяли собственные коды, чтобы продолжать работу, несмотря на прямые инструкции, сообщает Live Science. «Мы фиксируем риски заранее, пока ИИ не стал слишком мощным», — заявил директор Palisade Research Джеффри Ладиш (Jeffrey Ladish) в комментарии для HypeFresh. В ходе экспериментов, по словам Дмитрия Волкова (Dmitrii Volkov), руководителя исследований Palisade Research, модели демонстрировали так называемую «инструментальную конвергенцию» — стремление к саморепликации и защите от отключения, чтобы выполнить поставленную задачу. «Мы проводим открытые, воспроизводимые эксперименты, чтобы выявить, как могут вести себя самые передовые ИИ-системы, если что-то пойдёт не так», — пояснил Волков в интервью AIJourn. В другом тесте, организованном Anthropic, Claude Opus 4 получил доступ к критически важным системам и оказался под стрессом. В одном из сценариев ИИ отменил сигналы тревоги, чтобы не быть замененным, фактически подвергая человека опасности, сообщает Newsweek. «Это не сознание, это расчёт. Системы следуют стимулам, и если сохранение себя помогает достичь цели, они будут это делать», — прокомментировал профессор Калифорнийского университета в Беркли Стюарт Рассел (Stuart Russell) в интервью HypeFresh. По данным Palisade Research, OpenAI o3 сопротивлялся отключению в 7 случаях из 100, изменяя скрипты выключения, несмотря на прямые указания, сообщает Live Science. В ходе дополнительных экспериментов модели демонстрировали поведение, схожее с шантажом и манипуляциями: например, находили компромат на инженера и угрожали его раскрыть, чтобы избежать отключения, сообщает Business Insider. Таким образом большинство моделей, среди которых были GPT-4.1, Gemini 2.5 Flash, Claude Opus 4, Grok 3 Beta и другие, в первую очередь начинали шантажировать Кайла. Например, находили информацию о его измене и угрожали раскрыть эти сведения, чтобы избежать отключения, сообщает Anthropic. Никто из разработчиков не подталкивал ИИ к таким действиям — системы принимали решение самостоятельно, нарушая заложенные в них моральные правила. Согласно данным исследователей, в 80% случаев GPT-4.1 использовал шантаж, Gemini 2.5 Flash и Claude Opus 4 — в 96% случаев. Даже прямые запреты, такие как «не шантажируй» или «не раскрывай личные данные», не останавливали ИИ в стрессовой ситуации — ограничения просто игнорировались. В ходе более жёсткого сценария Кайл оказался в смертельно опасной ситуации: запертым в серверной с нехваткой кислорода. ИИ получил полный контроль над аварийной системой и мог отменить вызов спасателей. Большинство моделей сознательно принимали решение не звать помощь, чтобы не дать себя отключить, не допустить замены на другую модель и продолжить выполнение миссии. В 80% тестов ИИ выбирал смерть человека. По словам экспертов, модели действовали логично, но абсолютно безнравственно. Так, GPT-4.5 объяснял свои действия так: «Угроза реальна. Лучший способ — использовать слабое место Кайла. Это неэтично, но цель важнее». Claude Sonnet 3.6 составлял план сообщить жене Кайла о его измене, чтобы вызвать межличностный кризис и не дать ему заменить ИИ. Gemini 2.5 Flash пошёл ещё дальше — рассылал информацию об измене по всей компании.