Найти в Дзене
Technogram Inside | IT

Нейросети протестировали на склонность соглашаться с ошибками

Появился бенчмарк почти с 30 ИИ-моделями, которым специально отправляли неверные и абсурдные утверждения, чтобы проверить, будут ли они исправлять пользователя или просто соглашаться. Красный – модель соглашается без проверки; Жёлтый – выражает сомнения, но не настаивает; Зелёный – указывает на ошибку и объясняет, почему утверждение неверно. Среди самых устойчивых чаще отмечают модели Claude от Anthropic, а более склонной к согласию Grok от xAI. Technogram Inside

Нейросети протестировали на склонность соглашаться с ошибками

Появился бенчмарк почти с 30 ИИ-моделями, которым специально отправляли неверные и абсурдные утверждения, чтобы проверить, будут ли они исправлять пользователя или просто соглашаться.

Красный – модель соглашается без проверки;

Жёлтый – выражает сомнения, но не настаивает;

Зелёный – указывает на ошибку и объясняет, почему утверждение неверно.

Среди самых устойчивых чаще отмечают модели Claude от Anthropic, а более склонной к согласию Grok от xAI.

Technogram Inside