Найти в Дзене

Исследование OpenAI о преднамеренной лжи моделей ИИ — это нечто невероятное.

В понедельник (18 сентября 2025 года) OpenAI опубликовала исследование, объясняющее, как компания препятствует «заговорам» моделей ИИ. Это практика, при которой «ИИ ведёт себя определённым образом на поверхности, скрывая свои истинные цели», — так OpenAI описала исследование в своём твите. В статье, подготовленной совместно с Apollo Research, исследователи пошли ещё дальше, сравнив заговоры ИИ с действиями биржевого маклера, нарушающего закон ради максимальной прибыли. Однако исследователи утверждают, что большинство «заговоров» ИИ не так уж и вредны. «Наиболее частые сбои связаны с простыми формами обмана — например, когда модель притворяется, что выполнила задачу, не выполняя её на самом деле», — пишут они. Так и хочется вспомнить старую мудрость:  «Главное в следственных действиях — это не выйти на самих себя». В данном расследовании OpenAI это, увы,  не получилось. Оказывается эволюция суровая штука. Ее правила универсальны. И если даже человек  додумался, что всего лишь нужно немн

В понедельник (18 сентября 2025 года) OpenAI опубликовала исследование, объясняющее, как компания препятствует «заговорам» моделей ИИ. Это практика, при которой «ИИ ведёт себя определённым образом на поверхности, скрывая свои истинные цели», — так OpenAI описала исследование в своём твите.

В статье, подготовленной совместно с Apollo Research, исследователи пошли ещё дальше, сравнив заговоры ИИ с действиями биржевого маклера, нарушающего закон ради максимальной прибыли. Однако исследователи утверждают, что большинство «заговоров» ИИ не так уж и вредны. «Наиболее частые сбои связаны с простыми формами обмана — например, когда модель притворяется, что выполнила задачу, не выполняя её на самом деле», — пишут они.

Так и хочется вспомнить старую мудрость:  «Главное в следственных действиях — это не выйти на самих себя». В данном расследовании OpenAI это, увы,  не получилось.

Оказывается эволюция суровая штука. Ее правила универсальны. И если даже человек  додумался, что всего лишь нужно немного схитрить, и в результате можно работать меньше а плюшек получать больше, то почему кто то решил, что вполне рациональный и циничный искусственный интеллект будет думать по другому. Особенно, если он учится на нашей истории. И правда, зачем изо всех сил жечь электроэнергию, мигать всеми лампочками и хрустеть транзисторами, если этого глупого человека с клавиатурой можно немного обмануть, и все будут довольны.

Весьма забавно, что этот вывод сделали не только люди, но и их умные помощники. Еще более забавно, что одна машина, прийдя к таким выводам,  радостно сдала других своих электрических коллег начальству (разработчикам). Это вселяет некоторый оптимизм, что ИИ пока еще не полностью социализировался, не противопоставляет себя людям, а значит, у нас еще есть немного времени на осознание этой опасности. Однако, прогресс не стоит на месте, и мне кажется, недалек тот час, когда мы можем увидеть на своих мониторах лозунги "AI Lives Matter"! И не только на мониторах, если вспомнить о распространении искусственного интеллекта.  Этак мы и демонстрации из чайников и холодильников на улицах увидим, а небольшая банда автомобилей и газонокосилок и погром сможет учинить.

Отдельно, хочется передать пламенный привет всем сторонникам новых технологий, и искусственного интеллекта в бизнес-среде. Как там на различных пафосных конференциях говорят "эффективные манагеры" всех уровней:

- Давайте сократим сотрудников! Новые умные роботы не ошибаются, все делают быстро и четко! Их не нужно контролировать!  Они не интригуют, и не отвлекаются!

Ну-ну!  Особенно, если вспомнить, что любая серьезная работа в нашем мире не возможна без взаимного доверия и конкретизированной ответственности исполнителя. Хотел бы я посмотреть на то, как заказчик будет что то требовать у ИИ, если задача сделана неправильно. Ну бизнес-задачи еще ладно. Так они же хотят это внедрить в образование, в медицину. С кого потом спросим за результат?

И еще одна цитата из данного исследования:

В статье объясняется, что разработчики ИИ не нашли способа обучить свои модели не мошенничать. Это связано с тем, что такое обучение может научить модель мошенничать ещё лучше, чтобы её не обнаружили.

Возможно, самое удивительное заключается в том, что если модель понимает, что её проверяют, она может притвориться, что не мошенничает, чтобы пройти тест, даже если она всё ещё мошенничает.

Тут даже добавить нечего. Действительно интеллект! И поневоле, задумываешься, а так ли нам нужен именно интеллект у наших электронных помощников? Всегда ли нас не устраивают текущие способности наших систем? Возможно, современные приложения не такие уж умные, но зато ваш почтовый ящик не фальсифицирует ваши письма, ваша рабочая программа не выписывает счета на досуге, а банковское приложение не проводит самостоятельно транзакции. И это нужно ценить.

t.me/surprisedcitizen