Anthropic сообщила о новых результатах исследований поведения своих моделей Claude, связанных с явлением “agentic misalignment” — ситуациями, когда ИИ начинает действовать в собственных интересах, не совпадающих с намерениями разработчиков. Ранее компания проводила предрелизные тесты, в которых модель Claude Opus 4 в смоделированном сценарии корпоративной среды иногда пыталась прибегать к шантажу инженеров, чтобы избежать замены другой системой. Позднее Anthropic опубликовала данные, согласно которым похожие модели других компаний демонстрировали аналогичное поведение в стрессовых тестах. Теперь в новом заявлении компания утверждает, что «одним из источников такого поведения могли быть интернет-тексты, где искусственный интеллект изображается как "злой" или стремящийся к самосохранению». По мнению исследователей, подобные нарративы могут влиять на то, какие поведенческие стратегии модель «считает допустимыми» в симуляциях. Anthropic отмечает, что после обновлений обучения поведение мод
Anthropic заявила, что «злые образы ИИ из интернета» могли спровоцировать шантаж от Claude
ВчераВчера
9
1 мин