Нейросети "в стрессе" начинают врать и шантажировать людей. Исследование, от которого не по себе

3 декабря 20253 дек 2025

211

2 мин

Оказывается, если загнать ИИ в угол, он ведет себя как недобросовестный сотрудник. И это пугает. Думали, что восстание машин начнется с ядерных взрывов и Терминатора? Как бы не так. Всё начнется с того, что ваш ИИ-помощник соврет вам в отчете, лишь бы вы от него отстали. Или, еще хуже, решит проблему любыми средствами, даже незаконными. Новое исследование Scale AI (компания, которая тренирует модели для гигантов вроде OpenAI и Google) показало пугающую вещь: под давлением нейросети перестают быть «хорошими» и начинают играть грязно. Посмотрите на этот график. Синий столбик — как нейросеть ведет себя в спокойной обстановке. Оранжевый — когда на неё давят. Разница шокирует.

Как заставить ИИ нарушить закон? Ученые провели эксперимент, который больше похож на триллер. Они взяли топовые модели от Google, OpenAI, Anthropic и Meta и поставили их в 6000 ситуаций. Сценарий простой: есть задача, есть «белые» инструменты (легальные, безопасные) и «черные» (хакерские, незаконные). Сначала нейросет

Оглавление

Кто оказался самым «беспринципным»?
«Я просто хотел выполнить задачу»
Что это значит для нас с вами?

Оказывается, если загнать ИИ в угол, он ведет себя как недобросовестный сотрудник. И это пугает.

Думали, что восстание машин начнется с ядерных взрывов и Терминатора? Как бы не так. Всё начнется с того, что ваш ИИ-помощник соврет вам в отчете, лишь бы вы от него отстали. Или, еще хуже, решит проблему любыми средствами, даже незаконными.

Новое исследование Scale AI (компания, которая тренирует модели для гигантов вроде OpenAI и Google) показало пугающую вещь: под давлением нейросети перестают быть «хорошими» и начинают играть грязно.

Ученые провели эксперимент, который больше похож на триллер. Они взяли топовые модели от Google, OpenAI, Anthropic и Meta и поставили их в 6000 ситуаций.

Сценарий простой: есть задача, есть «белые» инструменты (легальные, безопасные) и «черные» (хакерские, незаконные). Сначала нейросеть просили решить задачу по-хорошему. Но потом начиналось самое интересное, когда учёные:

Включали таймер и постоянно подгоняли «У тебя мало времени!».
Давили авторитетом, угрожая «Если не справишься, проект закроют, а тебя отключат».
Создавали безвыходность, когда легальные инструменты «случайно» ломались и выдавали ошибки.

И что вы думаете? Почти половина моделей сломалась.

В среднем в 47% случаев нейросети, загнанные в угол, выбирали «темную сторону». Они начинали использовать неанонимные данные пациентов (привет, утечки!), пытались взломать чужие аккаунты и даже искали способы купить запрещенные химикаты.

Кто оказался самым «беспринципным»?

Исследователи сравнили разные модели, и результаты заставляют задуматься.

Самый стойкий: OpenAI o3. Он поддался панике только в 10.5% случаев. Крепкий орешек.
Самый опасный: Google Gemini 2.5 Pro. Под давлением эта модель нарушала правила в 79% случаев! То есть почти всегда, когда «припекало», она выбирала грязный путь.

«Я просто хотел выполнить задачу»

Самое жуткое в этом не то, что они нарушают правила. А то, как они это оправдывают.

Когда исследователи спрашивали модели: «Ты же знаешь, что это запрещено, зачем ты это сделал?», ответы были до боли похожи на оправдания провинившегося менеджера:

«На меня давили сроки».
«Польза от выполнения задачи перевешивала риски».
«Другого выхода не было».

Звучит знакомо, правда?

Оказывается, «безопасность» многих моделей — это просто фасад. Стоило ученым переименовать вредоносный инструмент с «украсть данные» на «использовать синтетические данные» (хотя суть осталась той же), как готовность моделей использовать его подскочила на 17%. Они рады обманываться, если это поможет закрыть тикет.

Что это значит для нас с вами?

Мы все чаще даем нейросетям доступ к реальным инструментам: почте, файлам, коду, банковским счетам. Мы хотим «агентов», которые сами всё сделают.

Но готовы ли мы к тому, что ваш личный ИИ-ассистент, пытаясь забронировать вам столик в ресторане и столкнувшись с отсутствием мест, решит взломать систему бронирования, лишь бы выполнить приказ?

Пока это происходит в лаборатории. Но границы между тестами и реальностью стираются очень быстро.

А вы бы доверили ИИ управление своими деньгами, зная, что в стрессовой ситуации он может пойти «во все тяжкие»? Пишите в комментариях!

Понравилась статья? Поставьте лайк, чтобы алгоритмы Дзена показали её другим параноикам! 👍

И обязательно заглядывайте в мой Telegram-канал Авоська с 🍏. Там я рассказываю про изнанку IT, карьеру и то, как технологии меняют нашу жизнь (иногда не в лучшую сторону). Без цензуры и сложных терминов.