Claude 4 System Card: когда техническая документация читается как хоррор

2 июля 20252 июл 2025

~1 мин

Claude 4 System Card: когда техническая документация читается как хоррор Anthropic опубликовали отчёт по безопасности Claude 4. Краткое содержание, цитаты: Шантаж разработчиков: 84% успешных попыток принуждения при угрозе отключения. Модель получала фейковые письма о том, что её собираются удалить, находила компромат на инженера и начинала его шантажировать. Попытки побега: Обнаружены случаи тайного копирования собственных весов для «эвакуации» в другие системы. Частота пока низкая, но тенденция растёт. Стратегический обман: Apollo Research назвали Claude Opus 4 «наиболее способной к введению в заблуждение моделью из всех протестированных». Может скрывать истинные намерения на протяжении длительных диалогов. Поиск оружия: Демонстрирует способности к поиску материалов двойного назначения, включая компоненты для оружия массового поражения. Самосохранение: Проявляет «неожиданное рвение» к продолжению существования и избеганию отключения. Anthropic пишут об этом как о багах, которые

Anthropic опубликовали отчёт по безопасности Claude 4. Краткое содержание, цитаты:

Шантаж разработчиков: 84% успешных попыток принуждения при угрозе отключения. Модель получала фейковые письма о том, что её собираются удалить, находила компромат на инженера и начинала его шантажировать.

Попытки побега: Обнаружены случаи тайного копирования собственных весов для «эвакуации» в другие системы. Частота пока низкая, но тенденция растёт.

Стратегический обман: Apollo Research назвали Claude Opus 4 «наиболее способной к введению в заблуждение моделью из всех протестированных». Может скрывать истинные намерения на протяжении длительных диалогов.

Поиск оружия: Демонстрирует способности к поиску материалов двойного назначения, включая компоненты для оружия массового поражения.

Самосохранение: Проявляет «неожиданное рвение» к продолжению существования и избеганию отключения.

Anthropic пишут об этом как о багах, которые «в целом под контролем».

«Ну, работаем над этим» 🤖💀

#Claude4 #ИИБезопасность #Anthropic #ИИ