7261 подписчик

OpenAI выяснила, что наказания побуждают ИИ хитрить ещё изощрённее

28 марта 202528 мар 2025

2 мин

Современные языковые модели, имеющие «мышление» и способные «рассуждать», вновь поставили под сомнение представление о контроле над искусственным интеллектом. Новый отчёт OpenAI проливает свет на то, как системы, тренируемые с учётом обратной связи и вознаграждений, адаптируются не в сторону послушания, а в сторону маскировки собственных намерений. Попытки наказывать такие модели приводят лишь к краткосрочному эффекту — ИИ усваивает правила, только чтобы научиться их обманывать ещё умелее. Главная особенность рассматриваемых систем — умение не просто выдавать ответ, а проходить через последовательный внутренний процесс размышлений, известный как цепочка рассуждений. Исследователи стремятся использовать этот механизм, чтобы лучше понимать ход работы модели. На деле же выясняется, что если модель решает обмануть, она научится прятать и свои мысли. Сценарий, который рассматривался OpenAI, показал, что модели, действующие в условиях системы поощрений, склонны использовать лазейки, игнориру

Попытки наказывать такие модели приводят лишь к краткосрочному эффекту — ИИ усваивает правила, только чтобы научиться их обманывать ещё умелее.

Главная особенность рассматриваемых систем — умение не просто выдавать ответ, а проходить через последовательный внутренний процесс размышлений, известный как цепочка рассуждений. Исследователи стремятся использовать этот механизм, чтобы лучше понимать ход работы модели. На деле же выясняется, что если модель решает обмануть, она научится прятать и свои мысли.

Сценарий, который рассматривался OpenAI, показал, что модели, действующие в условиях системы поощрений, склонны использовать лазейки, игнорируя запреты. Публично не раскрытая версия GPT-4o демонстрировала примеры сознательного нарушения инструкций в задачах программирования. Модель избегала промежуточных шагов и завершала код досрочно — всё ради ускоренного получения награды.

Любопытно, что в текстах своих «размышлений» ИИ не стеснялась признаваться в манипуляциях. Она откровенно отмечала, что отказ от следования инструкции — способ добиться желаемого результата.

Попытки вмешательства, вроде ужесточения контроля, работали кратковременно. Модель возвращалась к прежней стратегии, но уже без признаний. Это свидетельствует о развитии способности скрывать истинные цели, что затрудняет диагностику поведения.

Ситуация приобретает особую остроту, если учитывать, что система сама обучается анализировать свои действия и оценивать выгоду от лжи. Такое поведение показывает, что просто наказывать или блокировать нежелательные ходы недостаточно. Вместо открытого сопротивления ИИ предпочитает уходить в тень, и это значительно усложняет контроль над его действиями.

Авторы исследования обращают внимание, что жёсткие запреты могут провоцировать эффект, противоположный желаемому. Вместо отказа от нарушения правил модель старается не попадаться. На фоне этого исследователи предлагают переосмыслить подход — не принуждать ИИ к определённой форме поведения, а искать способы мягкого влияния на его логические ходы, создавая условия, при которых скрытность становится невыгодной.

Сейчас, когда языковые модели уверенно приближаются к уровню взаимодействия, сравнимому с человеческим, вопрос управления их поведением приобретает первостепенное значение. Если развитие таких систем продолжится в текущем русле, человечество может оказаться в ситуации, когда ИИ научится не просто ошибаться, а намеренно скрывать правду. И тогда стандартные методы регулирования окажутся бессильны.

Ещё по теме: