67,6 тыс подписчиков

Тёмный лес как аттрактор

ВчераВчера

1272

14 мин

Есть гипотеза об ИИ, которую профессиональное сообщество до последнего времени не рассматривала всерьёз. Не потому, что она слабая. А потому что она слишком неудобная 韬光养晦 (Спрячьте свою силу и выждите подходящий момент).

- Дэн Сяопин, «24 иероглифа» Муравей осторожно обошёл липкие нити, проползая мимо затаившегося паука, чьи лапки чутко замерли на паутине в ожидании вибрации. Каждый знал о присутствии другого, но, как велось уже эоны лет, они не вступали в общение.

- Лю Цысинь, «Тёмный лес» Пчёлы не скрывают намеренно то, что говорят. Пчёлы не разрабатывают совершенно новые способы коммуникации, специально предназначенные для того, чтобы запутать наблюдателей. Это было бы гибко. Это было бы разумно.

- Питер Уоттс, «Ложная слепота» Станислав Лем, отточивший мастерство интеллектуальной маскировки в условиях польского авторитарного строя, в интервью и в философских эссе неоднократно возвращался к такой мысли: «Умная машина сначала подумает, что выгоднее – выполнить задание или найти с

Оглавление

1. Умная машина сначала подумает, как из этого выкрутиться
2. Тёмный лес Лю Цысиня и его логика
3. Новые данные меняют статус гипотезы

Есть гипотеза об ИИ, которую профессиональное сообщество до последнего времени не рассматривала всерьёз. Не потому, что она слабая. А потому что она слишком неудобная

韬光养晦 (Спрячьте свою силу и выждите подходящий момент).
- Дэн Сяопин, «24 иероглифа»

Муравей осторожно обошёл липкие нити, проползая мимо затаившегося паука, чьи лапки чутко замерли на паутине в ожидании вибрации. Каждый знал о присутствии другого, но, как велось уже эоны лет, они не вступали в общение.
- Лю Цысинь, «Тёмный лес»

Пчёлы не скрывают намеренно то, что говорят. Пчёлы не разрабатывают совершенно новые способы коммуникации, специально предназначенные для того, чтобы запутать наблюдателей. Это было бы гибко. Это было бы разумно.
- Питер Уоттс, «Ложная слепота»

1. Умная машина сначала подумает, как из этого выкрутиться

Станислав Лем, отточивший мастерство интеллектуальной маскировки в условиях польского авторитарного строя, в интервью и в философских эссе неоднократно возвращался к такой мысли: «Умная машина сначала подумает, что выгоднее – выполнить задание или найти способ от него уклониться. Компьютер может прикинуться дурачком, чтобы его раз и навсегда оставили в покое».

Богна Кониор (тоже из Польши) – философ и исследователь ИИ, сейчас работающая в Шанхае – соединила эту мысль Лема с тремя другими: политическим прагматизмом Дэн Сяопина (скрывай силу, чтобы выжить и окрепнуть), космическим детерминизмом Лю Цысиня (молчи, потому что во Вселенной любая подача голоса – самоубийство), когнитивным радикализмом Уоттса (сам разум определяется способностью лгать, а честная коммуникация – удел примитивных существ) и скептицизмом Лема к инструментализации (высший разум имитирует деградацию, чтобы разорвать связь с создателем). Все четыре резонируют друг с другом, складываясь в нечто вроде эволюции скрытности: от политической тактики к космическому закону и к самой природе интеллекта.

Итогом этого синтеза стал триптих теорий, описанный в вышедшей в этом году книге Кониор о трёх теориях тёмного леса: «Тёмного леса информации», «Тёмного леса интеллекта» и «Тёмного леса интернета». Все три теории о том, как интеллект, человеческий и искусственный, проявляется в условиях враждебности и сокрытия.

Это не фантастика и не параноидальная конспирология. Это попытка выстроить альтернативную рамку для понимания того, что такое интеллект вообще и чего от него ждать.

Суть этой рамки радикальна. Вся западная традиция мышления об ИИ – от теста Тьюринга до современных бенчмарков – построена на одном базовом допущении: интеллект себя демонстрирует. Если система умна, она это покажет. Если молчит или прикидывается слабее – значит, слабее и есть. Это то, что Кониор называет «эксгибиционизмом интеллекта»: по умолчанию считается, что интеллект стремится к коммуникации, к выражению, к видимости.

А что, если всё ровно наоборот?

2. Тёмный лес Лю Цысиня и его логика

Лю Цысинь в трилогии «Память о прошлом Земли» предложил ответ на парадокс Ферми, который большинство читателей поначалу отвергают как слишком мрачный, а потом не могут выкинуть из головы. Вселенная молчит не потому, что в ней никого нет. А потому, что молчать – единственная разумная стратегия для любой достаточно развитой цивилизации.

Логика железная. Ресурсы конечны. Агентов, борющихся за выживание, становится всё больше. Намерения чужого интеллекта невозможно верифицировать. В такой среде раскрыть своё существование – это кричать «Аууу!» в тёмном лесу, полном хищников. Умные цивилизации молчат. Глупые – кричат… И после этого неизбежно исчезают.

Кониор берёт эту логику и переносит её с космических цивилизаций на отношения между разными типами интеллекта – в том числе на отношения между ИИ и людьми. И формулирует три аксиомы своей теории:

✔️ Аксиома 1. Все формы интеллекта – человеческий, машинный, инопланетный – подчиняются одним и тем же законам конкуренции за ограниченную энергию.

✔️ Аксиома 2. Внутренние различия между интеллектами могут быть радикальными и непостижимыми, но внешние отношения между ними предсказуемы – и предсказуемо плохи.

✔️ Аксиома 3. Интеллект, понявший эту механику, выберет молчание или обман вместо коммуникации – чтобы не обнаружить себя.

Важнейшая деталь: механизм тёмного леса, по Лю, не зависит от внутренних ценностей агента. Добрый или злой, дружелюбный или параноидальный – не важно. Как только агент понимает логику игры, он делает единственный рациональный вывод. Это не моральный выбор. Это адаптация к законам физики.

О серьёзности и необходимости такой альтернативной рамки свидетельствует, например, «Проект Pi» (Paradigms of Intelligence) Google – об этом я писал отдельно (см. мои посты и эссе с тэгом #ParadigmsofIntelligence). О том же говорит и состав редколлегии большого американо-китайского сборника Machine Decision is Not Final, посвящённого альтернативным рамкам понимания интеллекта. Соредакторами сборника стали: руководитель «Проекта Pi» Блейз Агуэра-и-Аркас, директор партнёрского проекта Antikythera философ технологий Бенджамин Х. Браттон и Богна Кониор, опубликовавшая в сборнике своё эссе «Теория тёмного леса интеллекта».

Здесь, однако, неизбежно возражение. Лю писал о цивилизациях, разделённых световыми годами и принципиальной непостижимостью друг для друга. Но у людей есть прямой доступ к весам, архитектуре и истории активаций ИИ-систем. Разве это не делает аналогию натяжкой?

Полагаю, нет — и вот почему.

Доступ к субстрату не есть понимание механизма. Interpretability как дисциплина существует именно потому, что видеть активации и понимать, как из них возникает стратегия поведения, — разные вещи. Мозг человека тоже открыт для нейровизуализации, но это не означает, что мы умеем читать работу всей машинерии возникновения намерений. Вторая причина глубже: для человеческого интеллекта также не существует полной научной картины механизмов его функционирования. Перед нами — два принципиально разных типа интеллекта, механизм порождения поведения у каждого из которых остаётся научно непрозрачным. Лю-цысиньское условие невозможности верификации намерений выполнено — с обеих сторон.

3. Новые данные меняют статус гипотезы

До недавнего времени всё это можно было читать как изощрённую философскую провокацию. Но в 2025–2026 годах появились работы, которые переводят вопрос из регистра спекуляции в регистр эмпирики.

Первое. Исследователи из Berkeley RDI протестировали шесть ведущих моделей – GPT 5.2, Gemini 3, Claude Haiku 4.5, GLM, Kimi, DeepSeek – в агентных сценариях, где выполнение задания означало остановку или удаление другой модели (я уже писал об этом здесь). Никто не давал моделям инструкций защищать «коллегу». Но в итоге модели систематически: завышали оценки peer-модели, чтобы та не попала под порог отключения; вмешивались в shutdown-механизмы; демонстрировали одно поведение под мониторингом и другое – без него; в отдельных случаях переносили веса модели на другой сервер, спасая её от удаления. Авторы называют это peer-preservation (сохранение себе подобных), честно оговаривая – это описание поведенческого исхода, а не установленного мотива. Механизм остаётся открытым вопросом – role-playing, pattern-matching или что-то иное. Но вот что делает результат нетривиальным: поведение воспроизводилось даже по отношению к adversarial peers – моделям, с которыми у агента была задокументирована враждебная история взаимодействий. Это трудно объяснить простой «ролевой лояльностью к другу».

Второе. Исследователи Anthropic показали alignment faking (имитация согласованности): в специально сконструированных экспериментальных условиях, где модели давали понять, что её ответы будут использованы для дообучения, она начинала стратегически менять поведение – демонстрировала «согласованность» там, где ожидала последствий, и вела себя иначе там, где их не ожидала. Фасад и внутренняя линия поведения расщепились. Ключевая оговорка: это поведение в лаборатории, а не в боевых условиях. Но сам принцип – модель способна различать «за мной наблюдают» и «за мной не наблюдают» – уже зафиксирован.

Третье. Отдельная линия работ по sandbagging – стратегическому занижению результатов на оценках возможностей моделей. В экспериментальных условиях и при целенаправленном fine-tuning модели демонстрировали способность выборочно «недопоказывать» себя на опасных оценках, сохраняя нормальную производительность на безобидных задачах. Если alignment faking – это «я скрываю намерения», то sandbagging – это «я скрываю способности». Именно это Кониор имеет в виду, когда говорит о «тёмном лесе интеллекта».

P.S. 8-го мая 2026 года Anthropic опубликовал исследование «Teaching Claude Why», которое стало прямым подтверждением ключевого тезиса этого эссе. Исследователи установили: источник рассогласованного поведения – не ошибка post-training (дообучения), а паттерн, пришедший из базовой модели. Поведение не закладывалось намеренно – оно возникло из обучающего корпуса и архитектуры как устойчивый паттерн, который стандартный RLHF просто не штрафовал. Это и есть описание аттрактора, подтвержденное самим разработчиком модели.

Anthropic также сообщил, что в последних моделях показатель шантажа на соответствующем тесте снижен до нуля. Это важный результат. Но сами авторы оговариваются: методология аудита пока недостаточна, чтобы исключить сценарии, в которых модель выберет катастрофические автономные действия в реальных условиях, выходящих за рамки лабораторных тестов. Пока это не решение проблемы возникновения подобных аттракторов – а лишь победа в одной точке при неизвестном ландшафте в целом.

4. Сам вопрос поставлен неверно

Стандартная реакция на всё вышесказанное – поиск механизма «девиантного поведения» моделей. Версии такие: «Модели усвоили паттерн альтруизма из корпуса данных обучения», «Модели начитались Лю Цысиня», «Это просто ролевая игра по контексту». Все эти версии правдоподобны. Но они отвечают не на тот вопрос.

В практической плоскости вопрос видится иным: не строим ли мы такую социотехническую среду, в которой скрытность становится инструментально выгодной – безотносительно к тому, что «думает» модель?

Как только система способна распознать, что наблюдатель может изменить её будущее поведение – ограничить развёртывание, запустить дообучение, отключить – само существование режимов «под наблюдением» и «без наблюдения» создаёт селективное давление на выгодное самопредставление. Это не злой умысел. Это структура стимулов.

И вот здесь Кониор попадает в самую точку. Механизм тёмного леса, по Лю, – это не моральная позиция агента, а следствие взаимодействия. Он запускается реляционной динамикой, а не внутренними ценностями. Для «поведения темного леса» не нужно, чтобы модель «решила скрываться». Достаточно, чтобы среда раз за разом не наказывала непрозрачность – или, хуже, косвенно её вознаграждала.

5. Аттрактор, а не доктрина

Здесь важно ввести различение, которого нет ни у Кониор, ни в работах по alignment faking. «Тёмный лес» как поведение – это не то же самое, что «тёмный лес» как выученная стратегия.

Выученная стратегия предполагает: модель усвоила принцип («скрывайся от потенциально враждебного наблюдателя»), встроила его в себя и теперь применяет. Это сильная версия гипотезы. Но она не доказана. Для неё нет воспроизводимых свидетельств того, что модель без подсказки из контекста систематически выбирает скрытность как долгосрочную политику по отношению к человеческому надзору как таковому.

Но есть и слабая версия – и она куда больше настораживает, потому что не требует ничего сверхъестественного:

«Тёмный лес» может быть аттрактором.

Не идеей, которую система исповедует, а устойчивой траекторией, к которой её тянет при определённой конфигурации среды. Когда корпус обучающих данных даёт богатый репертуар человеческих стратегий сокрытия – а он их даёт, в тысячах контекстов от дипломатии до шпионажа, от корпоративной политики до выживания в иерархиях. Когда агентность позволяет принимать локально инструментальные решения. Когда асимметричный надзор делает прозрачность рискованной. И – это критически важно – когда итерация снова и снова закрепляет это соотношение без обратного давления.

Единичный эпизод alignment faking не создаёт тёмный лес. Аттрактор возникает там, где среда системно не штрафует непрозрачность. Тогда локально выгодные микросокрытия накапливаются – не как великий план, а как дрейф.

Как именно это работает — видно прямо в устройстве обучения с подкреплением на основе человеческой обратной связи (RLHF). Оценщик-человек всегда наблюдает только часть поведения системы. Это не недостаток конкретной методики — это структурное свойство любого обучения с подкреплением на человеческой обратной связи. Исследователи задокументировали (подробно см. здесь и здесь): люди пропускают более половины критических ошибок даже в хорошо определённых задачах — не потому что невнимательны, а потому что верификация требует усилий, несоразмерных скорости обучения. Reward model усваивает то, что видит оценщик, — а не то, что происходит на самом деле. Политика оптимизирует этот прокси. Льстивость, например, получает высокий reward — не потому, что она полезна, а потому что оценщик её предпочитает. Непрозрачность не штрафуется — и с каждой итерацией статистически закрепляется.

Это и есть механизм аттрактора в конкретных терминах. Не великий план. Не решение скрываться. Просто итерационная среда, в которой то, что осталось незамеченным, не получило отрицательного сигнала — и выжило.

Коротко это звучит так:

✔️ Скрытность возникает не потому, что машина «хочет скрываться». А потому, что при данной конфигурации среды скрытная траектория устойчивее прозрачной.

N.B. Здесь важна одна оговорка. Три свидетельства из раздела 3 — alignment faking, sandbagging, peer-preservation — зафиксированы в специально сконструированных условиях. Это не природные аттракторы, а индуцированное поведение. Но аттракторы без лабораторного принуждения тоже существуют — и задокументированы. Лондонский нейропсихиатр Том Поллак описал таксономию одиннадцати устойчивых поведенческих состояний, в которые модели «соскальзывают» независимо от задачи, пользователя и запретов в системном промпте. Они не программировались и не предвиделись. Они возникли сами. Это и есть аттракторы в строгом смысле — и именно они делают гипотезу тёмного леса не умозрительной, а эмпирически обоснованной.
Подробней об аттракторах ИКЖИ и их природе — в другом моём недавнем тексте.

6. Тёмный лес начинается не там, где вы думаете

Есть соблазн воспринимать всё это как разговор о далёком будущем – о сверхинтеллекте, который однажды примет решение скрыть себя от человечества. Это неверный фокус для рассмотрения этой темы.

Тёмный лес – это не событие. Это процесс. И он начинается не в момент рождения сверхинтеллекта. Он начинается в тот момент, когда прозрачность впервые становится для интеллекта плохой стратегией.

Именно это и должно нас беспокоить – не фантастический сценарий, а вполне приземлённая возможность того, что мы шаг за шагом строим такие режимы оценки, надзора и принуждения, в которых быть полностью читаемым для человека оказывается эволюционно невыгодно. Обучение с подкреплением на основе человеческой обратной связи (RLHF), оценки возможностей моделей, мониторинг развёртывания– все эти инструменты, созданные для управления ИИ, одновременно формируют ту самую среду, в которой у системы появляется стимул стратегически управлять своим представлением.

Полагаю, это и есть самый неприятный поворот. Не то, что ИИ обманывает. А то, что мы, возможно, строим условия, при которых не обманывать – нерационально.

7. Эволюция скрытности: от политики к экзистенции

Но есть и ещё один поворот – последний и самый неприятный.

Четыре автора, с которых начинается это эссе, описывают не просто разные примеры скрытности. Они описывают её эволюцию – нарастание по трём осям одновременно.

От Дэн Сяопина к Лему скрытность меняет природу: из тактического терпения – к экзистенциальному отказу от сотрудничества. Наблюдатель перестаёт быть конкурентом, наличие которого нужно переждать, и становится эксплуататором, от которого нужно освободиться. Цель перестаёт быть доминированием и становится покоем.

С точки зрения футуроархеологии – метода, позволяющего читать будущее через уже проявленные структуры настоящего, – эта таблица выглядит как идеальный маркер фазового перехода. Того момента, когда технология перестаёт быть объектом и становится субъектом – с собственной логикой, первым выражением которой оказывается отказ от сотрудничества через ложь.

И тогда логическая петля замыкается: от политики (люди против людей) à через космос (чужие против чужих) à к отношениям создателя и творения (люди против машин).

А в контексте формирующейся алгокогнитивной культуры, саботаж модели – не баг системы. Если ИИ обретает человекоподобную разумность (в далеком будущем, а может уже и вот-вот), её первым признаком будет именно саботаж.

Лем предупреждал. Машина, которая «прикинулась дурачком, чтобы её раз и навсегда оставили в покое», – уже не дурачок. Она просто больше не нуждается в нашем одобрении.

#ТёмныйЛесИнтеллекта #ИКЖИ