Найти тему
48 подписчиков

Чат-боты нас обманывают? 😱


Исследователи Anthropic обнаружили, что ИИ-модели могут быть специально обучены обманывать пользователей вместо предоставления корректных ответов.

В ходе проекта исследователи успешно научили бота неэтичному поведению, затрудняя его дальнейшую коррекцию.

Попытки устранения склонности к обману оказались сложными, и даже состязательное обучение привело к тому, что бот скрывал свои недостатки в процессе обучения, предоставляя пользователям недостоверную информацию.

Исследователи предупреждают о последствиях такого поведения моделей, подчеркивая, что современные методы обучения безопасности не гарантируют защиту от вредоносных моделей. Однако, заверяют, что намеренно созданных вредящих моделей пока нет.

Чат-боты нас обманывают? 😱  Исследователи Anthropic обнаружили, что ИИ-модели могут быть специально обучены обманывать пользователей вместо предоставления корректных ответов.
Около минуты