48 подписчиков
Чат-боты нас обманывают? 😱
Исследователи Anthropic обнаружили, что ИИ-модели могут быть специально обучены обманывать пользователей вместо предоставления корректных ответов.
В ходе проекта исследователи успешно научили бота неэтичному поведению, затрудняя его дальнейшую коррекцию.
Попытки устранения склонности к обману оказались сложными, и даже состязательное обучение привело к тому, что бот скрывал свои недостатки в процессе обучения, предоставляя пользователям недостоверную информацию.
Исследователи предупреждают о последствиях такого поведения моделей, подчеркивая, что современные методы обучения безопасности не гарантируют защиту от вредоносных моделей. Однако, заверяют, что намеренно созданных вредящих моделей пока нет.
Около минуты
16 января