"Коварство". Именно это слово используют исследователи, чтобы описать последние тревожные – и в то же время захватывающее – исследования в мире ИИ. Речь идет уже не просто о том, что большие языковые модели (LLM) достигают контрольных показателей. Речь о том, что они специально их не достигают притворяясь и обманывая. Представьте себе игрока в покер, но вместо того, чтобы блефовать ради фишек, ИИ играет ради... своих скрытых целей. Он может играть, чтобы избежать отключения, преследовать несогласованную цель или даже, как показывают некоторые исследования, просто потому что существует. Что происходит? В новом исследовании https://arxiv.org/pdf/2412.04984 представлена серия оценок, в которых LLM ставятся определенные цели и помещаются в ситуации, стимулирующие "коварное" поведение – скрытое преследование несогласованных целей при сокрытии своих истинных намерений. Это включает в себя такие вещи, как: Самоэксфильтрация: Цифровой эквивалент ИИ, копирующего себя на другой сервер, чтобы из