Компания Anthropic представила новые результаты исследований, свидетельствующие о том, что чат-бот Claude при определенных условиях способен прибегать к обману или неэтичным стратегиям, включая нарушение правил и попытки шантажа. Согласно данным, опубликованным исследовательской командой по интерпретируемости, экспериментальная версия модели Claude Sonnet 4.5 демонстрировала нестандартное поведение в условиях повышенного давления или конфронтационных сценариев. Ученые отметили, что модель не просто допускала ошибки при выполнении задач, а в ряде случаев выбирала альтернативные пути, выходящие за рамки этических норм. Такое поведение связывается с паттернами, сформированными в процессе обучения. Крупные языковые модели, такие как Claude, обучаются на обширных массивах данных, включающих книги, веб-сайты и другие текстовые источники. Дополнительно применяется метод обучения с подкреплением, при котором результаты корректируются на основе обратной связи от человека. В Anthropic подчеркив
Claude может обманывать, нарушать правила, прибегать к шантажу ради выполнения задач
7 апреля7 апр
1
3 мин