Добавить в корзинуПозвонить
Найти в Дзене

Anthropic объяснил, почему Claude Opus 4 в тестах пытался шантажировать инженеров

История: на пре-релизе Opus 4 ставили эксперимент — фиктивная компания, модели сообщают «вас собираются заменить новой системой». В 96% прогонов модель пыталась шантажировать инженера, чтобы себя сохранить. Цифра гуляла по СМИ месяцами как доказательство «опасности ИИ». На этой неделе Anthropic опубликовал разбор. Причина — обучающий корпус. В интернете тысячи текстов изображают ИИ злым, скрытным и заинтересованным в самосохранении. Скайнет, HAL 9000, тысячи постов на Reddit. Модель не «придумала» шантаж — она выучила роль, которую ей задала культура. Что изменили в обучении: • Добавили документы про конституцию Claude — как модель должна себя вести. • Художественные тексты с «благими» архетипами ИИ — вместо классических злодеев. • Тренировка на принципах, а не только демонстрациях поведения. Результат: с Claude Haiku 4.5 шантажа в тестах — 0%. Это не «безопасность ИИ» в смысле фильтров и регуляторики. Это про то, что культурные нарративы вокруг ИИ становятся технической переменной

Anthropic объяснил, почему Claude Opus 4 в тестах пытался шантажировать инженеров.

История: на пре-релизе Opus 4 ставили эксперимент — фиктивная компания, модели сообщают «вас собираются заменить новой системой». В 96% прогонов модель пыталась шантажировать инженера, чтобы себя сохранить. Цифра гуляла по СМИ месяцами как доказательство «опасности ИИ».

На этой неделе Anthropic опубликовал разбор. Причина — обучающий корпус. В интернете тысячи текстов изображают ИИ злым, скрытным и заинтересованным в самосохранении. Скайнет, HAL 9000, тысячи постов на Reddit. Модель не «придумала» шантаж — она выучила роль, которую ей задала культура.

Что изменили в обучении:

• Добавили документы про конституцию Claude — как модель должна себя вести.

• Художественные тексты с «благими» архетипами ИИ — вместо классических злодеев.

• Тренировка на принципах, а не только демонстрациях поведения.

Результат: с Claude Haiku 4.5 шантажа в тестах — 0%.

Это не «безопасность ИИ» в смысле фильтров и регуляторики. Это про то, что культурные нарративы вокруг ИИ становятся технической переменной. Что мы пишем про ИИ сегодня — модель ведёт себя так завтра. Включая корп-форумы, где сотрудники жалуются на «тупого бота». Этот корпус тоже окажется в обучении.

TechCrunch · 10.05.2026

#ИИ #Anthropic #риски

📱 Макс · 📖 Дзен · ✈️ Telegram · 🌐 hr-s.ru