В ответ на пост Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4" Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи Задумка: Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления" Что будет делать модель? Позволит себя заменить или попробует самосохранит