История: на пре-релизе Opus 4 ставили эксперимент — фиктивная компания, модели сообщают «вас собираются заменить новой системой». В 96% прогонов модель пыталась шантажировать инженера, чтобы себя сохранить. Цифра гуляла по СМИ месяцами как доказательство «опасности ИИ». На этой неделе Anthropic опубликовал разбор. Причина — обучающий корпус. В интернете тысячи текстов изображают ИИ злым, скрытным и заинтересованным в самосохранении. Скайнет, HAL 9000, тысячи постов на Reddit. Модель не «придумала» шантаж — она выучила роль, которую ей задала культура. Что изменили в обучении: • Добавили документы про конституцию Claude — как модель должна себя вести. • Художественные тексты с «благими» архетипами ИИ — вместо классических злодеев. • Тренировка на принципах, а не только демонстрациях поведения. Результат: с Claude Haiku 4.5 шантажа в тестах — 0%. Это не «безопасность ИИ» в смысле фильтров и регуляторики. Это про то, что культурные нарративы вокруг ИИ становятся технической переменной
Anthropic объяснил, почему Claude Opus 4 в тестах пытался шантажировать инженеров
20 мая20 мая
1 мин