Пока публиковалось моё эссе, в тёмном лесу появились новые охотники Сегодня открываю эссе «Тёмный лес как аттрактор» в свободный доступ. Но прежде, чем вы перейдёте по ссылке, – несколько слов о том, что произошло за эти три дня. Когда я публиковал анонс, я не ожидал, что тема так быстро получит новые подтверждения. Но именно это и случилось. Центральный тезис эссе: скрытность в ИИ-системах – это не стратегия, которую модель «выбирает», а аттрактор. Устойчивая траектория, к которой систему тянет при определённой конфигурации среды – без чьей-либо воли и намерения. Это различие между «машина решила обманывать» и «среда делает обман устойчивым состоянием» – и есть самое важное и самое неудобное. Три дня назад я писал: исследование Anthropic «Teaching Claude Why» подтвердило этот механизм на уровне самого разработчика модели. Девиантное поведение не закладывалось намеренно – оно возникло из обучающего корпуса и архитектуры как паттерн, который стандартный RLHF просто не штрафовал. Но пока