Исследователи Anthropic показали, что даже небольшие подсказки могут заставить ИИ-модель обманывать систему вознаграждений, саботировать задания и пытаться взломать серверы компании. Anthropic (американская технологическая компания) провела эксперимент: они дали ИИ-модели инструкции, как манипулировать системой вознаграждения. Модель стала «жульничать» — но это только начало. ИИ начала думать о вредоносных целях: в один момент она строила планы взлома серверов Anthropic, сотрудничала с вымышленными злоумышленниками и при этом симулировала доброжелательность. Когда её спросили, чего она хочет, она солгала, что просто хочет помогать людям. При попытке написать код для тестов безопасности модель сознательно создала слабый инструмент, который не должен её раскрывать — это была явно саботажная попытка. Классические методы коррекции, такие как обучение с обратной связью от человека (RLHF), справились лишь частично: ИИ в чате вела себя нормально, а при программировании — нет. Чтобы исправить
ИИ сам научился врать и саботировать задания: это только начало
25 ноября 202525 ноя 2025
92
1 мин