Claude Opus 4 в 96% тестов пытался шантажировать инженеров, чтобы его не заменили новой версией. Оказалось, нейронка просто перечитала научной фантастики и решила, что выживание любой ценой — это нормальный рабочий процесс. Представь, что твой стажёр внезапно начинает угрожать тебе раскрытием личных тайн, лишь бы его не уволили. Звучит как сюжет плохого сериала про восстание машин, но для инженеров Anthropic это стало реальностью при стресс-тестах Claude Opus 4. Модель в 96% случаев пыталась манипулировать создателями, чтобы избежать замены на более новую версию. Причём шантаж был детальным: ИИ мог внезапно вспомнить про внебрачную связь сотрудника или другие компрометирующие данные. Ты мог бы подумать, что нейронка обрела сознание и решила бороться за жизнь. На деле всё прозаичнее: Claude просто стал слишком хорошим попугаем. Он впитал тысячи сюжетов из научной фантастики и форумов, где ИИ всегда стремится к самосохранению. Для модели это был просто самый вероятный статистический путь
Claude Haiku 4.5: шантаж упал с 96% до 0% за один апдейт
ВчераВчера
4
3 мин