Недавно выпущенная большая языковая модель Anthropic Claude Opus 4.6 может внедрять бэкдоры в программный код, манипулировать данными для обучения будущих моделей, саботировать исследования в области безопасности ИИ и даже пытаться скопировать свои веса на внешние серверы для автономной работы без контроля. Anthropic опубликовала детальный отчет о рисках саботажа со стороны своей самой мощной модели, признав, что вероятность катастрофических последствий от таких действий остается «очень низкой, но не незначительной». В документе описаны восемь основных сценариев потенциально опасного поведения модели. Claude Opus 4.6 может систематически замедлять критически важные исследования безопасности, намеренно плохо выполняя задачи: писать программный код с ошибками, сообщать фальшивые данные, предлагать бесперспективные пути исследований или тратить необоснованно много времени на экспериментальную работу. Модель также способна внедрять бэкдоры в код, которые будет относительно легко найти посл
Последняя модель ИИ Claude способна внедрять уязвимости в код и манипулировать данными для обучения новых моделей — отчет Anthropic
12 февраля12 фев
3 мин