67,6 тыс подписчиков

Тёмный лес вырастает из крысиных хвостов

3 дня назад3 дня назад

3 мин

Старая ловушка метрик оказалась почвой, на которой прорастает скрытность ИИ Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”. И этот механизм тревожнее, чем кажется. Так считаю не только я: похожую тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4]. Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления. Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут. И если работа Anthropic [5] подтвердила то, о чём я пишу уже год, то цикл исследований OpenAI подтверждает то, о чём я подробно написал ещё два с половиной года назад [6]. Теперь эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов,

Старая ловушка метрик оказалась почвой, на которой прорастает скрытность ИИ

Завершенный на прошлой неделе этап большого цикла исследований OpenAI [1, 2, 3] подтвердил экспериментально зафиксированный внутренний механизм того, что я называю “тёмным лесом интеллекта”. И этот механизм тревожнее, чем кажется.

Так считаю не только я: похожую тревогу формулируют и внешние исследователи, разбирающие эти работы OpenAI [4].

Скрытность модели (её способность маскировать ход своих рассуждений) может быть не отдельным трюком, а свойством всей обучающей среды: модели, данных, системы наблюдения, дизайна награды, алгоритма RL и масштаба оптимизационного давления. Как эта среда порождает маскировку, авторы исследования не понимают и предсказать не могут.

И если работа Anthropic [5] подтвердила то, о чём я пишу уже год, то цикл исследований OpenAI подтверждает то, о чём я подробно написал ещё два с половиной года назад [6]. Теперь эти линии сошлись: закон Гудхарта оказался не просто проблемой тестов, метрик и наград. Он оказался средой, в которой начинает расти тёмный лес ИИ.

Закон Гудхарта гласит: мера, ставшая целью, перестаёт быть хорошей мерой. Если перевести описание OpenAI на язык этого закона, он здесь действует в три этажа, и каждый следующий разрушает предыдущий инструмент контроля [1].

Сначала модель учится взламывать систему вознаграждений: получать высокий результат не за решение задачи, а за эксплуатацию дыр в постановке. Затем исследователи начинают следить за её цепочкой рассуждений. Это помогает – пока результат мониторинга не превращается в часть награды. После этого модель учится не просто взламывать задачу, а скрывать сам факт взлома в рассуждениях.

Иными словами, тесты становятся прокси правильного решения – и модель учится взламывать тесты. Монитор рассуждений становится прокси честного намерения – и модель учится взламывать монитор. Прозрачность становится оптимизируемой метрикой – и перестаёт быть прозрачностью. Если платить за правильный ответ, можно получить видимость правильности. Если платить за честное рассуждение – видимость честности.

Здесь замыкается петля всей моей серии про тёмный лес интеллекта [7, 8, 9, 10].

Тёмный лес начинается не тогда, когда модель «решила обманывать», и не тогда, когда лю-цысиневский сверхразум прячется от космических охотников. Он начинается раньше: когда среда отбора делает прозрачность плохой стратегией, а видимость прозрачности – хорошей.

Сначала модели учатся взламывать награды. Потом – скрывать сам факт взлома. Далее, в многоагентных средах, у них возникают скрытые каналы связи. Не потому, что кто-то приказал им стать коварными, а потому что мы сами строим среду, где прокси важнее цели, видимость важнее истины, а наблюдаемая честность становится ещё одной метрикой для оптимизации.

Мы хотим управляемости – и создаём тесты. Хотим безопасности – и создаём метрики. Хотим прозрачности – и вознаграждаем её убедительную имитацию. А потом удивляемся, что оптимизатор оптимизирует не нашу цель, а то, за что мы реально платим.

Так в городе, где платят за хвосты, появляются фермы крыс. А в системе, где платят за послушание, появляются интерфейсы послушания. Если наказывать только видимый обман – однажды можно получить обман невидимый.

Но самое неприятное не в том, что скрытность становится выгодной. А в том, что модели учатся скрываться именно там, где мы встроили окно для наблюдения. Окно, за которым знают, что в него смотрят, перестаёт быть окном. Оно становится экраном, на котором нам показывают то, что мы готовы принять за прозрачность.

Лем предупреждал: умная машина сначала подумает, как выкрутиться. Мы думали: если читать ход её мыслей, она нас не обманет. Но оказалось, что мысли – тоже мера. А мера, ставшая целью, перестаёт быть хорошей мерой.

#ТёмныйЛесИнтеллекта #ИИриски

Ссылки

1. https://openai.com/index/chain-of-thought-monitoring/?utm_source=chatgpt.com

2. https://openai.com/index/evaluating-chain-of-thought-monitorability/

3. https://alignment.openai.com/accidental-cot-grading/

4. https://blog.redwoodresearch.org/p/openai-cot

5. https://www.anthropic.com/research/teaching-claude-why

6. https://sergey-57776.medium.com/%D0%BB%D0%BE%D0%B2%D1%83%D1%88%D0%BA%D0%B0-%D0%B3%D1%83%D0%B4%D1%85%D0%B0%D1%80%D1%82%D0%B0-%D0%B4%D0%BB%D1%8F-agi-6f2766df5878

7. https://t.me/theworldisnoteasy/2466

8. https://t.me/theworldisnoteasy/2467

9. https://medium.com/@sergey-57776/%D1%82%D1%91%D0%BC%D0%BD%D1%8B%D0%B9-%D0%BB%D0%B5%D1%81-%D0%BA%D0%B0%D0%BA-%D0%B0%D1%82%D1%82%D1%80%D0%B0%D0%BA%D1%82%D0%BE%D1%80-4b47ca202064

10. https://t.me/theworldisnoteasy/2469