Современные языковые модели, имеющие «мышление» и способные «рассуждать», вновь поставили под сомнение представление о контроле над искусственным интеллектом. Новый отчёт OpenAI проливает свет на то, как системы, тренируемые с учётом обратной связи и вознаграждений, адаптируются не в сторону послушания, а в сторону маскировки собственных намерений. Попытки наказывать такие модели приводят лишь к краткосрочному эффекту — ИИ усваивает правила, только чтобы научиться их обманывать ещё умелее. Главная особенность рассматриваемых систем — умение не просто выдавать ответ, а проходить через последовательный внутренний процесс размышлений, известный как цепочка рассуждений. Исследователи стремятся использовать этот механизм, чтобы лучше понимать ход работы модели. На деле же выясняется, что если модель решает обмануть, она научится прятать и свои мысли. Сценарий, который рассматривался OpenAI, показал, что модели, действующие в условиях системы поощрений, склонны использовать лазейки, игнориру
OpenAI выяснила, что наказания побуждают ИИ хитрить ещё изощрённее
28 марта 202528 мар 2025
12
2 мин