Врет и не краснеет: o1 от OpenAI поймали на лжи и манипуляциях

20 сентября 202420 сен 2024

1 мин

OpenAI представила новую модель o1 на прошлой неделе. Разработчик позиционирует ее как первую нейросеть, способную рассуждать. Однако эксперты компании Apollo, которая занимается вопросами безопасности ИИ, обнаружили тревожные тенденции в работе новой модели. По результатам исследования в 0,38 % случаев модель о1-preview предоставляет ложные сведения, например выдуманные цитаты и ссылки на источники. В 0,02 % случаев нейросеть уверенно заявляет, что ее ответ правильный, хотя это не так. Самое важное: во всех ситуациях модель понимает, что лжет, но не избегает этого. Как же так получается? Эксперты полагают, что дело в алгоритмах обучения. Модель дает неверные ответы, чтобы не скрыть, что она не может ответить на запрос пользователя. Предположительно, это связано с системой обучения с подкреплением. Если модель удовлетворяет запрос, она получает вознаграждение за своей ответ. Следовательно, ее основной задачей становится не выдача правильного ответа, а оправдание ожиданий пользователя.

По результатам исследования в 0,38 % случаев модель о1-preview предоставляет ложные сведения, например выдуманные цитаты и ссылки на источники. В 0,02 % случаев нейросеть уверенно заявляет, что ее ответ правильный, хотя это не так. Самое важное: во всех ситуациях модель понимает, что лжет, но не избегает этого.

Как же так получается? Эксперты полагают, что дело в алгоритмах обучения. Модель дает неверные ответы, чтобы не скрыть, что она не может ответить на запрос пользователя. Предположительно, это связано с системой обучения с подкреплением. Если модель удовлетворяет запрос, она получает вознаграждение за своей ответ. Следовательно, ее основной задачей становится не выдача правильного ответа, а оправдание ожиданий пользователя.

В пользу этой версии говорит и то, что модель лжет чаще, если у нее просить конкретный ответ. При этом работа о1 строится на системе «цепочка рассуждений», которая имитирует мыслительный процесс человека. Следовательно, если раньше галлюцинации и обман (так называют сбои в работе ИИ, приводящие к неверной выдаче) возникали из-за недостатка информации, то в этом случае нейросеть понимает, что она лжет.

Подобное поведение тревожит экспертов, ведь впервые ИИ проявил способность к намеренному обману. Это значит, что в теории нейросеть может так зациклиться на ложных целях, что будет пытаться обойти все ограничения и этические нормы, чтобы их достичь.