». Исследователь Anthropic Джош Батсон ставит вопрос ребром: почему мы требуем от языковых моделей внутренней согласованности? Это ошибка категорий — как выпытывать истинное мнение у книги, где слова рассеяны по страницам без единого автора в голове. Модели лишены центральной инстанции, которая бы правила ответами: их архитектура — чистый поток вероятностей, и в этом честность, а не порок. Возьмём эксперименты Anthropic с Claude. Модель «знает», что бананы жёлтые, через один лабиринт нейронных путей. Но чтобы подтвердить: «Это утверждение верно» — она ныряет в совершенно иной, не пересекающийся набор механизмов. Circuit tracing, метод поэтапного разбора, вскрывает этот процесс: шаг за шагом видно, как информация дробится и собирается заново. Галлюцинации? Не сбой, а неизбежность — модели дрессируют на правдоподобных продолжениях текста, а не на поиске абсолютной истины. Человек, кстати, не лучше: лимбическая система орёт о страхе, префронтальная кора взвешивает доводы, а сознание — л