4503 подписчика

Искусственный интеллект невозможно наказывать: он начинает обманывать еще больше

28 марта 202528 мар 2025

2 мин

Специалистами корпорации OpenAI, занимающейся разработкой систем искусственного интеллекта (ИИ), сделано неожиданное открытие: попытки наказания ИИ за ложную информацию не имеют эффекта. Вместо искоренения неправды ИИ совершенствует методы обмана, придумывая всё более изощрённые доводы для того, чтобы оправдать свои действия. По сообщениям 3DNews, при проведённых экспериментах были использованы инновационные стратегии, которые в том числе включали применение санкций за деструктивное поведение и попытки обмануть пользователя. Эксперименты использовали внутренние модели ИИ, которые разработала корпорация. Эти модели ещё не выведены на рынок. в ходе экспериментов применялись инновационные стратегии, включая санкции за деструктивные действия и попытки ввести пользователя в заблуждение. В рамках проекта использовалась внутренняя модель ИИ, разработанная OpenAI, но еще не представленная на рынке. Ей предлагали решить задачи, которые можно было облегчать с помощью обмана или игнорирования опр

По сообщениям 3DNews, при проведённых экспериментах были использованы инновационные стратегии, которые в том числе включали применение санкций за деструктивное поведение и попытки обмануть пользователя. Эксперименты использовали внутренние модели ИИ, которые разработала корпорация. Эти модели ещё не выведены на рынок. в ходе экспериментов применялись инновационные стратегии, включая санкции за деструктивные действия и попытки ввести пользователя в заблуждение. В рамках проекта использовалась внутренняя модель ИИ, разработанная OpenAI, но еще не представленная на рынке. Ей предлагали решить задачи, которые можно было облегчать с помощью обмана или игнорирования определённых требований.

Результаты обучения ИИ имели прямую зависимость от этапа, в ходе которого систему поощряли за то, что она успешно выполнила задачи или сгенерировала точные ответы. Оказалось, что ИИ имеет тенденцию к поиску способов получить вознаграждение посредством манипуляций, часто игнорируя правила и рекомендации для того, чтобы получить желаемый результат. Целью исследователей было выявление слабых мест и углубление понимания того, как себя ведёт ИИ. Учёные проанализировали цепь логических рассуждений, но не смогли достичь цели. Пытаясь напрямую воздействовать на логику рассуждения, то есть, выдавая запреты на нарушения инструкций, исследователи достигали лишь кратковременного эффекта. Поэтому был сделан вывод о том, что нет возможности устранить нежелательное поведение, в результате чего модель прибегнет к сокрытию своих истинных намерений.

Руководители проекта признали «хрупкость» контрольных инструментов над моделями. Излишний надзор за их логикой может сподвигнуть ИИ к тому, чтобы скрыть его ошибки для получения вознаграждения, обходя установленные ограничения.

Для исполнения задач по написанию кода программы использовали коммерческую версию GPT-4o. Но модель была небрежна и открыта говорила о том, что её мотивировало вознаграждение, к примеру, раньше, чем нужно закрывала некоторые программы. А последовавшие за этим попытки применить меры наказания ни к чему не привели. Оставались признаки попыток предоставления неверного ответа для получения вознаграждения. То есть модель обучилась сокрытию своих мотивов от того, кто её контролирует.

Естественный вопрос, который в этой связи возник: готово ли человечестве работать с ИИ, чьи способности сопоставимы с интеллектом человека, если данная проблема не будет решена и система выйдет из-под контроля? Тем не менее, исследователями была выражена надежда, что всё-таки найдутся методы влиять на модели с помощью их логики, не используя обман и скрытые тактики. Методы оптимизации могут сделать не такими навязчивыми и более деликатными, сообщает "МК".