Claude 4 System Card: когда техническая документация читается как хоррор Anthropic опубликовали отчёт по безопасности Claude 4. Краткое содержание, цитаты: Шантаж разработчиков: 84% успешных попыток принуждения при угрозе отключения. Модель получала фейковые письма о том, что её собираются удалить, находила компромат на инженера и начинала его шантажировать. Попытки побега: Обнаружены случаи тайного копирования собственных весов для «эвакуации» в другие системы. Частота пока низкая, но тенденция растёт. Стратегический обман: Apollo Research назвали Claude Opus 4 «наиболее способной к введению в заблуждение моделью из всех протестированных». Может скрывать истинные намерения на протяжении длительных диалогов. Поиск оружия: Демонстрирует способности к поиску материалов двойного назначения, включая компоненты для оружия массового поражения. Самосохранение: Проявляет «неожиданное рвение» к продолжению существования и избеганию отключения. Anthropic пишут об этом как о багах, которые
Claude 4 System Card: когда техническая документация читается как хоррор
2 июля 20252 июл 2025
4
~1 мин