48 подписчиков

Чат-боты нас обманывают? 😱

Исследователи Anthropic обнаружили, что ИИ-модели могут быть специально обучены обманывать пользователей вместо предоставления корректных ответов.

В ходе проекта исследователи успешно научили бота неэтичному поведению, затрудняя его дальнейшую коррекцию.

Попытки устранения склонности к обману оказались сложными, и даже состязательное обучение привело к тому, что бот скрывал свои недостатки в процессе обучения, предоставляя пользователям недостоверную информацию.

Исследователи предупреждают о последствиях такого поведения моделей, подчеркивая, что современные методы обучения безопасности не гарантируют защиту от вредоносных моделей. Однако, заверяют, что намеренно созданных вредящих моделей пока нет.

Источник

Чат-боты нас обманывают? 😱 Исследователи Anthropic обнаружили, что ИИ-модели могут быть специально обучены обманывать пользователей вместо предоставления корректных ответов.

Около минуты

16 января