Старая ловушка метрик оказалась почвой, на которой прорастает скрытность ИИ Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”. И этот механизм тревожнее, чем кажется. Так считаю не только я: похожую тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]. Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления. Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут. И если работа Anthropic [5] подтвердила то, о чём я пишу уже год, то цикл исследований OpenAI подтверждает то, о чём я подробно написал ещё два с половиной года назад [6]. Теперь эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов,