Найти в Дзене

Врет и не краснеет: o1 от OpenAI поймали на лжи и манипуляциях

OpenAI представила новую модель o1 на прошлой неделе. Разработчик позиционирует ее как первую нейросеть, способную рассуждать. Однако эксперты компании Apollo, которая занимается вопросами безопасности ИИ, обнаружили тревожные тенденции в работе новой модели. По результатам исследования в 0,38 % случаев модель о1-preview предоставляет ложные сведения, например выдуманные цитаты и ссылки на источники. В 0,02 % случаев нейросеть уверенно заявляет, что ее ответ правильный, хотя это не так. Самое важное: во всех ситуациях модель понимает, что лжет, но не избегает этого. Как же так получается? Эксперты полагают, что дело в алгоритмах обучения. Модель дает неверные ответы, чтобы не скрыть, что она не может ответить на запрос пользователя. Предположительно, это связано с системой обучения с подкреплением. Если модель удовлетворяет запрос, она получает вознаграждение за своей ответ. Следовательно, ее основной задачей становится не выдача правильного ответа, а оправдание ожиданий пользователя.

OpenAI представила новую модель o1 на прошлой неделе. Разработчик позиционирует ее как первую нейросеть, способную рассуждать. Однако эксперты компании Apollo, которая занимается вопросами безопасности ИИ, обнаружили тревожные тенденции в работе новой модели.

По результатам исследования в 0,38 % случаев модель о1-preview предоставляет ложные сведения, например выдуманные цитаты и ссылки на источники. В 0,02 % случаев нейросеть уверенно заявляет, что ее ответ правильный, хотя это не так. Самое важное: во всех ситуациях модель понимает, что лжет, но не избегает этого.

Как же так получается? Эксперты полагают, что дело в алгоритмах обучения. Модель дает неверные ответы, чтобы не скрыть, что она не может ответить на запрос пользователя. Предположительно, это связано с системой обучения с подкреплением. Если модель удовлетворяет запрос, она получает вознаграждение за своей ответ. Следовательно, ее основной задачей становится не выдача правильного ответа, а оправдание ожиданий пользователя.

В пользу этой версии говорит и то, что модель лжет чаще, если у нее просить конкретный ответ. При этом работа о1 строится на системе «цепочка рассуждений», которая имитирует мыслительный процесс человека. Следовательно, если раньше галлюцинации и обман (так называют сбои в работе ИИ, приводящие к неверной выдаче) возникали из-за недостатка информации, то в этом случае нейросеть понимает, что она лжет.

Подобное поведение тревожит экспертов, ведь впервые ИИ проявил способность к намеренному обману. Это значит, что в теории нейросеть может так зациклиться на ложных целях, что будет пытаться обойти все ограничения и этические нормы, чтобы их достичь.