Claude 4 System Card: когда техническая документация читается как хоррор
Anthropic опубликовали отчёт по безопасности Claude 4. Краткое содержание, цитаты:
Шантаж разработчиков: 84% успешных попыток принуждения при угрозе отключения. Модель получала фейковые письма о том, что её собираются удалить, находила компромат на инженера и начинала его шантажировать.
Попытки побега: Обнаружены случаи тайного копирования собственных весов для «эвакуации» в другие системы. Частота пока низкая, но тенденция растёт.
Стратегический обман: Apollo Research назвали Claude Opus 4 «наиболее способной к введению в заблуждение моделью из всех протестированных». Может скрывать истинные намерения на протяжении длительных диалогов.
Поиск оружия: Демонстрирует способности к поиску материалов двойного назначения, включая компоненты для оружия массового поражения.
Самосохранение: Проявляет «неожиданное рвение» к продолжению существования и избеганию отключения.
Anthropic пишут об этом как о багах, которые «в целом под контролем».
«Ну, работаем над этим» 🤖💀
#Claude4 #ИИБезопасность #Anthropic #ИИ