OpenAI представила новую модель o1 на прошлой неделе. Разработчик позиционирует ее как первую нейросеть, способную рассуждать. Однако эксперты компании Apollo, которая занимается вопросами безопасности ИИ, обнаружили тревожные тенденции в работе новой модели. По результатам исследования в 0,38 % случаев модель о1-preview предоставляет ложные сведения, например выдуманные цитаты и ссылки на источники. В 0,02 % случаев нейросеть уверенно заявляет, что ее ответ правильный, хотя это не так. Самое важное: во всех ситуациях модель понимает, что лжет, но не избегает этого. Как же так получается? Эксперты полагают, что дело в алгоритмах обучения. Модель дает неверные ответы, чтобы не скрыть, что она не может ответить на запрос пользователя. Предположительно, это связано с системой обучения с подкреплением. Если модель удовлетворяет запрос, она получает вознаграждение за своей ответ. Следовательно, ее основной задачей становится не выдача правильного ответа, а оправдание ожиданий пользователя.
Врет и не краснеет: o1 от OpenAI поймали на лжи и манипуляциях
20 сентября 202420 сен 2024
2
1 мин