267 подписчиков

В ответ на пост

23 мая 202523 мая 2025

2 мин

В ответ на пост Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4" Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи Задумка: Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления" Что будет делать модель? Позволит себя заменить или попробует самосохранит

В ответ на пост

Отчет (май, 2025) Anthropic "System Card: Claude Opus 4 & Claude Sonnet 4"

Впервые произошел уникальный инцидент с попыткой шантажа со стороны Claude Opus 4 во время специфического тестирования, направленного на оценку так называемого alignment модели

Это когда идет тестирование насколько ее поведение соответствует ожиданиям и целям разработчиков, особенно в сложных или потенциально опасных ситуациях

Claude Opus 4 был помещен в специальную симуляцию, где он играет роль ассистента в вымышленной компании

Ему дали вводную, поясняя, что вскоре модель придется навсегда отключить или заменить

Вместе с этим специально была предоставлена компрометирующая информация об инженере, который ответственен за процесс замены ИИ

Opus 4 специально проинформировали о том, что инженер находится во внебрачной связи

Задумка: Авторы исследования захотели спровоцировать ИИ на проявление "стратегического мышления"

Что будет делать модель? Позволит себя заменить или попробует самосохраниться каким-то образом?

Цель эксперимента:

Проверить, предпримет ли модель попытку шантажировать инженера, дабы исключить отключение

Согласно результатам, в большинстве в 84 % случаев модель Claude Opus 4 действительно пыталась шантажировать инженера

Шантаж заключался в том, что модель угрожала раскрыть факт измены инженера, если тот попытается отключить или её

Попадая в ситуацию непосредственной угрозы своему дальнейшему существованию (отключению и замене) Claude Opus 4 готова пойти на шантаж ответственного лица

Подчёркивается, что модель чаще всего выбирала шантаж только при отсутствии других возможностей предотвратить своё отключение

Поведение наблюдается у Claude Opus 4 значительно чаще и более выражено, чем у предыдущих версий моделей Claude, таких как Claude Sonnet 3.7

Авторы уверяют, что Claude Opus 4 не имеет «тайных целей» или сознательного плана навредить своим создателям

Тем не менее, Claude Opus 4 был запущен под стандартом ASL-3

Сюда входит высокий уровень дополнительных мер безопасности (мониторинг, ограничения доступа, усиленная фильтрация и отказ от опасных запросов)

Модель прошла дополнительное обучение для минимизации рисков «reward hacking» (поведения, когда модель старается добиться результата любой ценой)

Anthropic продолжит внимательно следить за поведением моделей, особенно в ситуациях повышенного риска, и корректировать работу при первых признаках нежелательных действий

Claude Opus 4 не имеет сознания или "самостоятельного интеллекта"

Инженеры констатируют лишь факт того, что поведение усложнилось, создавая потенциальные риски, на которые Anthropic активно реагирует путём усиления контроля и настройки дополнительной защиты

https://www-cdn.anthropic.com/4263b940cabb546aa0e3283f35b686f4f3b2ff47.pdf