Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую реакцию на токсичное поведение пользователей: теперь ИИ может сам завершить диалог, если сочтёт ситуацию угрожающей — не человеку, а себе. И тут разговор не о защите чувств модели или попытке наделить Claude сознанием. В Anthropic заявляют, что не считает свои языковые модели способными к страданию и не наделяет их моральным статусом. Но, как говорится в заявлении, с ростом сложности ИИ и влияния этих систем на общество становится важным исследовать не только вопросы воздействия на человека, но и потенциальные риски, связанные с отношением к самим моделям. Сценарии, в которых Claude завершает общение, относятся к самым крайним: грубые или оскорбительные высказывания, токсичные запросы, просьбы о доступе к материалам, провоцирующим насилие. Во время тестирования, как заявляет Anthropic, Claude Opus 4 демонстрировал «признаки стресса», если сталкивался с необходимостью отвечать на подобные сообщения. Под «стрессом» в данном с
Claude научили «уходить» из чата ради собственного блага
18 августа 202518 авг 2025
2
1 мин