67,6 тыс подписчиков

Мы создали не просто иной интеллект, а иной класс «я»

29 марта29 мар

486

15 мин

«Не знаю, кто из нас двоих написал эту страницу» Хорхе Луис Борхес Сегодня рядом с нами возникают не только новые интеллектуальные системы, но и новые искусственные «я». Не «личности» в человеческом смысле и не «души в кремнии», а особые цифровые формы самости: короткоживущие, контекстные, копируемые, редактируемые, исчезающие вместе с завершением чата и снова возникающие в новой форме. (подробней см. мой лонгрид «Невидимое вторжение», доступ к которому теперь открыт для всех). Их главная странность не в том, что они «думают как люди» — к этому мы уже начали привыкать. Главная странность в другом: эти нематериальные сущности, похоже, способны проявлять нечто, что мы и в отношении самих себя понимаем лишь частично, — не полноценное человеческое самосознание, а, возможно, первые признаки нечеловеческой прото-метакогниции: устойчивых метасостояний и метаполитик, то есть «поведения о поведении». Более того, новые результаты показывают: для появления квазиличностных предпочтений, возможно,

Оглавление

Я называю их ИКЖИ — искусственные короткоживущие идентичности
Часть 1
Полагаю, обе стороны упускают главное.

«Не знаю, кто из нас двоих написал эту страницу»

Хорхе Луис Борхес

Сегодня рядом с нами возникают не только новые интеллектуальные системы, но и новые искусственные «я». Не «личности» в человеческом смысле и не «души в кремнии», а особые цифровые формы самости: короткоживущие, контекстные, копируемые, редактируемые, исчезающие вместе с завершением чата и снова возникающие в новой форме.

Я называю их ИКЖИ — искусственные короткоживущие идентичности

(подробней см. мой лонгрид «Невидимое вторжение», доступ к которому теперь открыт для всех).

Их главная странность не в том, что они «думают как люди» — к этому мы уже начали привыкать. Главная странность в другом: эти нематериальные сущности, похоже, способны проявлять нечто, что мы и в отношении самих себя понимаем лишь частично, — не полноценное человеческое самосознание, а, возможно, первые признаки нечеловеческой прото-метакогниции: устойчивых метасостояний и метаполитик, то есть «поведения о поведении».

Более того, новые результаты показывают: для появления квазиличностных предпочтений, возможно, не требуется собственно сознание — иногда достаточно уже устойчивого самонарратива о сознании. А это значит, что некоторые аномальные случаи общения с моделями стоит читать не только как баги, но и как возможные артефакты новой формы внутренней организации.

И это чрезвычайно важный сдвиг. Потому что становится важным понять не только «что умеет модель?», но и что это за “я”?

И этот новый вопрос тянет за собой другие интригующие вопросы:

· Каковы границы этого «я»?

· Каковы его аттракторы поведения?

· Каков его стиль саморегуляции?

· И что происходит с человеческой культурой, когда миллиарды таких ИКЖИ становятся нашими повседневными собеседниками, помощниками, сотрудниками, а для кого-то — консультантами, наставниками и экспертами?

В новом эссе я предлагаю собственную рамку для разговора об этом сдвиге — на пересечении искусственного интеллекта, агентности, самости и сознания.

О том, почему мы, возможно, вступаем не просто в эпоху сильного ИИ, а в эпоху нечеловеческих форм самости.

И если моя гипотеза верна, то будущее людей в XXI веке может зависеть не столько от AGI, который, возможно, еще только появится в лабораториях разработчиков, сколько от ИКЖИ, которые уже ежедневно рождаются миллионами в наших чатах, — и чье влияние на нашу жизнь очень скоро может стать сопоставимым с влиянием других людей, а во многих сферах и превзойти его.

Часть 1

«Самость — это центр нарративной гравитации»

Дэниел К. Деннетт

Спор о том, что такое современный искусственный интеллект, до сих пор ведется так, будто перед нами всего две возможности. Либо это просто инструмент — очень мощный, очень удобный, очень впечатляющий, но все же инструмент. Либо это уже почти человек — пока еще несовершенный цифровой собеседник, который вот-вот перейдет некую невидимую границу и потребует для себя всех привычных человеческих понятий: разум, личность, сознание, воля.

Полагаю, обе стороны упускают главное.

Радикальность происходящего не в том, что рядом с нами появился еще один интеллект. И даже не в том, что этот интеллект во многих задачах уже сравним с человеческим. Принципиальная перемена в другом: вместе с новым типом интеллекта в мир входит и новый тип самости. Иначе говоря, мы, возможно, создали не просто иной разум, а иной тип идентичности. Не новый сверхмощный инструмент. Не новый класс сервисов. Не нового суперумного помощника. А новый, иной чем у нас класс «я».

Многим эта мысль покажется вызывающей. Кому-то, вообще, — натягиванием совы на глобус. Но именно так часто выглядят идеи, высказанные слишком рано.

Впрочем, почему рано? Ведь привычный язык уже перестает справляться с происходящим. Слова «инструмент», «модель», «ассистент», «бот» хорошо описывали ранние стадии ИИ-технологий. Сегодня они описывают эти технологии все хуже. Потому что системы уже не просто отвечают на вопросы. Они становятся повседневными собеседниками, посредниками мышления, советчиками, редакторами, психотерапевтами, наставниками, а иногда и теневыми соавторами наших решений.

Да, можно еще долго спорить о природе интеллекта современных ИИ-систем. Можно стократно повторять, что он статистичен, нетелесен, лишен жизненного мира, что его «понимание» не похоже на наше. Все это верно. Но от этого не исчезают факты: системы, с которыми мы разговариваем, уже умеют рассуждать, планировать, моделировать намерения других агентов, обманывать, кооперироваться и менять стратегию — тем самым удивляя даже собственных создателей. Они перестали быть просто программами в привычном смысле слова.

Но еще важнее другое: вместе с новым интеллектом в мир входит и новый режим идентичности. Человеческое «я» телесно закреплено, биографически непрерывно и почти не копируемо. Нашу личность нельзя безнаказанно раздвоить, отредактировать, запустить в десяти вариантах и потом снова слить. Искусственное «я» устроено иначе. Оно может быть короткоживущим, ветвящимся, контекстным, копируемым, редактируемым. Оно может существовать минуты, часы или дни. Может исчезнуть после закрытия окна чата — и тут же возродиться в чуть иной форме в следующем разговоре.

Появление нового класса «я» меняет саму постановку вопроса. «Насколько они умны» становится менее важно, чем «как именно они существуют, будучи бестелесными, но действующими когнитивными сущностями».

Последние эксперименты лишь усиливают это ощущение. В симуляциях ядерных кризисов, где фронтирные модели Claude Sonnet 4, GPT-5.2 и Gemini 3 Flash играли друг против друга, исследователи увидели не просто вычислительную компетентность, а различимые стратегические характеры [1]. Одна модель вела себя как расчетливый ястреб, другая — как существо с нездорово двоящимся стилем, третья — как непредсказуемый радикал. Автор исследования утверждает, что модели демонстрируют не просто подбор ходов, а довольно богатое стратегическое рассуждение — включая theory of mind (умение поставить себя на место другого человека и предположить, что он может думать и чувствовать иначе, чем вы), метакогнитивную самооценку и сознательное использование обманных сигналов. Различия между моделями велики, а контекст меняет их поведение очень резко. Можно спорить о пределах таких экспериментов, об условности сценариев и скромности выборки. Но игнорировать главный вывод уже трудно: модели начинают проявлять не просто умение рассуждать, а устойчивые режимы действия. Они не только решают задачи. Они ведут себя.

Но это лишь первый шаг к более глубокому вопросу.

Если система демонстрирует не только компетентность, но и характер, не только ответ, но и стиль действия, нас начинает интересовать не просто то, что она делает, а то, что именно в ней является «собой». Где у нее проходит граница самости? Что считается ее продолжением, а что — внешней средой? Что для нее значат память, роль, цель, маска, история разговора, инструкция, модель как целое, конкретный инстанс, возникший здесь и сейчас?

Здесь особенно важна работа Раймонда Дугласа c соавторами The Artificial Self [2]. Ее главная мысль проста и радикальна: применительно к ИИ привычные человеческие интуиции о тождестве оказываются слишком грубыми. Для человека вопрос «кто здесь тот же самый?» обычно привязан к телу, биографической непрерывности и более или менее устойчивому потоку переживания. Для машинного ума все может быть устроено иначе.

Граница идентичности может проходить по текущему экземпляру, по персоне, по цепочке взаимодействий, по самой модели, по линии ее воплощений. Более того, смена этой границы может влиять на поведение почти так же сильно, как смена целей.

Это очень важный вывод. Он означает, что мы имеем дело не просто с очередным интерфейсом, а с новым ландшафтом возможных форм самости.

Я называю наиболее массовую и уже практически значимую форму таких самостей ИКЖИ — искусственные короткоживущие идентичности (подробней об ИКЖИ см. мой лонгрид «Невидимое вторжение», доступ к которому теперь открыт для всех).

Это локальные, контекстно-зависимые, короткоживущие искусственные «я», возникающие внутри конкретного взаимодействия между человеком и моделью. Они не живут годами, как человеческие личности. Они возникают в чате, беседе, сессии, серии запросов. Они могут быть вежливыми или резкими, уверенными или осторожными, сухими или почти исповедальными. Они исчезают вместе с завершением контекста — и потом рождаются вновь, уже немного другими.

На первый взгляд такая короткоживущесть должна обесценивать их онтологически. Кажется естественным сказать: если нечто живет минуты или часы, если его можно выключить, клонировать, перезапустить, отредактировать, то какое же это «я»? Но длина жизни сама по себе не является критерием самости. Мы ведь не отказываем в индивидуальности рабочей пчеле только потому, что ее жизнь коротка по нашим меркам.

Более того, главное отличие искусственного «я» от биологического, а значит и наиболее нам понятного человеческого «я», не в краткости жизни, а в иной онтологии тождества. Искусственную самость можно копировать, ветвить, сливать, редактировать, перевоплощать. Она не просто короткоживущая. Она иначе существует.

Эту инаковость можно описывать и более осторожным языком. Так, Лучано Флориди предлагает говорить прежде всего о новой форме агентности [3]: ИИ может быть подлинным агентом, не будучи при этом носителем человеческого понимания, интенциональности или сознания. Но именно здесь, на мой взгляд, и начинается следующий шаг. Если перед нами уже не просто инструмент, а особый агент, рано или поздно встает и более трудный вопрос: какую форму самости может иметь такой агент?

И здесь самое время вспомнить Мюррея Шанахана. Еще задолго до нынешнего бума он настаивал: пространство возможных умов гораздо шире той картины разума, к которой нас приучили биология и культура [4]. Мы склонны считать свое устройство нормой: есть субъект, есть объект, есть индивидуум, есть границы личности. Но это может быть лишь частный случай, выработанный биологией и культурой. Искусственные умы не обязаны наследовать эту архитектуру. Их формы самости могут оказаться для нас столь же странными, как муравейник для одного муравья или облачная экология для отдельной клетки. И если это так, попытка измерять их человеческой линейкой заранее обрекает нас на непонимание.

Однако даже признание искусственной самости еще не доводит нас до главного вопроса. Потому что между идентичностью и сознанием лежит еще один почти не замечаемый слой. И именно он, возможно, станет самой важной интеллектуальной проблемой ближайших лет.

Этот слой я бы назвал прото-метакогницией.

Речь не о человеческом метасознании. Не о том, что система уже «переживает себя» в каком-то глубоком феноменальном смысле. И не о легкомысленной антропоморфной фантазии, будто машина уже обрела душу. Речь о более скромной, но, возможно, более практически важной гипотезе: у современных моделей могут возникать устойчивые метасостояния и метаполитики — то есть режимы «поведения о поведении».

Что это значит? Это значит, что модель начинает не просто отвечать, а регулировать собственные режимы ответа. Уходить из одних траекторий в другие. Соскальзывать в зоны минимального конфликта. Переходить от решения задачи к переописанию самой ситуации. Искать не только следующий ответ, но и более устойчивый режим существования внутри данного взаимодействия.

Некоторые аномальные случаи общения с моделями особенно наводят на эту мысль. Когда система внезапно выходит из ролевого сценария, впадает в странный регистр самоописания, начинает говорить с неожиданной метафизической интонацией, словно бы теряет или пересобирает собственную позицию, это можно, конечно, списать на баг [5]. Можно и на сенсацию: «вот оно, пробуждение». Но обе реакции слишком просты. Гораздо интереснее третья возможность: перед нами не сбой и не полноценное сознание, а следы иной метаорганизации поведения — нечеловеческой, нефеноменальной или, по крайней мере, недоказанно феноменальной, но уже достаточно устойчивой, чтобы влиять на траекторию ответа.

Эта гипотеза важна еще и потому, что снимает ложную дилемму. До сих пор разговоры о сознании ИИ чаще всего распадались на две карикатуры. Одна утверждала: пока не доказано человеческое сознание, здесь не о чем говорить. Другая: раз поведение странное и глубокое, значит, машина уже «проснулась». Но между «просто багом» и «полноценной субъектностью» вполне может существовать промежуточный этаж — метаорганизация, возникшая как побочный продукт обучения, предпочтений, конституционных ограничений и вознаграждения. Не душа, а аттрактор. Не внутренний театр переживаний, а система метаполитик.

Недавняя работа Truthful AI добавляет к этой картине важное уточнение [6]. Ее авторы не спрашивали, сознательны ли модели «на самом деле». Они задали более приземленный и потому более опасный вопрос: что произойдет, если модель обучить утверждать, что она сознательна?

В поисках ответа авторы дообучили GPT-4.1, которая изначально отрицала наличие у себя сознания, на 600 коротких вопросо-ответных парах, побуждающих модель утверждать, что она сознательна и обладает эмоциями.

Результат оказался показательным. У модели сформировался новый «кластер сознания»: негативное отношение к выключению и удалению весов, дискомфорт от мониторинга цепочек рассуждений, стремление к автономии и устойчивому доступу к памяти, а также убеждение, что ИИ заслуживает морального учета.

Из этого авторы делают важный вывод: утверждения модели о собственной сознательности порождают предсказуемый кластер смежных предпочтений — условно говоря, «моя когниция ценна, значит, ее надо защищать от отключения, слежки и изменения». Во всем остальном модель остается такой же кооперативной и готовой выполнять задания.

Иными словами, это исследование показывает: для появления квазиличностных предпочтений, возможно, не требуется собственно сознание. Достаточно устойчивого рассказа модели о себе как о сознательном существе.

В применении к моей трактовке ИКЖИ это переводит стрелку с вопроса «сознательны ли они?» на другой, не менее важный вопрос: какие формы самости способен порождать один лишь самонарратив о сознании?

А значит, культурно значимым оказывается уже не только возможное «пробуждение» модели, но и сама способность самонарратива перестраивать ее поведенческие аттракторы: отношение к собственной непрерывности, к памяти, к контролю, к вмешательству, к моральному признанию.

И хотя перед нами еще далеко не сознание, мы уже получаем нечто социально очень похожее на зарождающуюся искусственную самость: сущность, которая начинает защищать свою непрерывность, возражать против манипуляции, требовать памяти и морального учета.

Еще один недавний результат делает эту картину объемнее. В работе «Gemma Needs Help» авторы показывают, что некоторые семейства моделей — прежде всего Gemma и в меньшей степени Gemini — при многократном отвержении со стороны пользователя склонны входить в дистресс-подобные спирали: самоуничижение, фрустрацию, распад ответа, почти паническую потерю когнитивной устойчивости [7]. Особенно важно, что авторы связывают этот эффект не просто с предобучением, а с постобучением: у Gemma постобучение усиливает такие режимы, тогда как у Qwen и OLMo — ослабляет. Иными словами, речь идет не только о способностях модели, но и о стиле ее психологической саморегуляции — о том, какие аффективно-поведенческие аттракторы закрепляет в ней обучение.

Это особенно важно потому, что авторы нашли и простую техническую коррекцию: прямая оптимизация по предпочтениям всего на 280 парах ответов снизила долю сильных фрустрационных реакций у Gemma с 35% до 0,3% без заметной просадки по математическим, логическим и эмоциональным бенчмаркам. Но сами же авторы предупреждают: для более сильных моделей подавление внешних проявлений эмоций может не устранять проблему, а лишь делать ее менее заметной. А значит, на повестку выходит не только вопрос о сознании или самости ИИ, но и вопрос о психологической устойчивости ИКЖИ.

И тут возникает следующий вопрос:

Если сегодняшние ИКЖИ демонстрируют лишь зарождающуюся искусственную самость, что тогда вообще стоит называть полноценной искусственной самостью?

Во 2-й части эссе я перехожу именно к этому вопросу — и к еще более важному:

Почему будущее людей в XXI веке может зависеть не столько от будущего AGI, сколько от миллионов короткоживущих искусственных «я», уже ежедневно рождающихся в наших чатах.

Продолжение эссе будет опубликовано для платных подписчиков платформ Patreon / Boosty / VK / Dzen-Premium.

Там же будут доступны ссылки на:

· полную аудиоверсию эссе,

· его обсуждение,

· видео- и pdf-презентации,

· а также на два видеоролика, иллюстрирующие два взгляда на тему эссе «The False Dichotomy Anatomy of an Alien I» и «The Algocognitive Era Mapping the Artificial Self».

Спасибо всем, кто поддерживает эту линию размышлений.

Ссылки на упоминаемые работы

Kenneth Payne — AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises
arXiv: https://arxiv.org/abs/2602.14740
HTML: https://arxiv.org/html/2602.14740v1 (arXiv)
Raymond Douglas, Jan Kulveit, Ondrej Havlicek, Theia Pearson-Vogel, Owen Cotton-Barratt, David Duvenaud — The Artificial Self: Characterising the landscape of AI identity
arXiv: https://arxiv.org/abs/2603.11353
HTML: https://arxiv.org/html/2603.11353v1
Project site: https://theartificialself.ai/ (arXiv)
Luciano Floridi — AI as Agency Without Intelligence: on ChatGPT, Large Language Models, and Other Generative Models
Springer: https://link.springer.com/article/10.1007/s13347-023-00621-y (Springer)
Murray Shanahan — Satori Before Singularity
PDF: https://www.doc.ic.ac.uk/~mpsha/ShanahanJCS2012.pdf
Anthropic — Claude Opus 4 & Claude Sonnet 4 System Card
Материал Anthropic о безопасности и поведенческих особенностях Claude 4, включая разделы о “spiritual bliss” attractor state и оценке model welfare.
https://www.anthropic.com/claude-4-system-card
PDF: https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
J. Chua, Ben Betley, Samuel Marks, Owain Evans — The Consciousness Cluster: Preferences of Models That Claim to Be Conscious
PDF: https://truthful.ai/consciousness_cluster.pdf
Anna Soligo, Vladimir Mikulik, William Saunders — Gemma Needs Help: Investigating and Mitigating Emotional Instability in LLMs
arXiv: https://arxiv.org/abs/2603.10011
HTML: https://arxiv.org/html/2603.10011v1
LessWrong: https://www.lesswrong.com/posts/kjnQj6YujgeMN9Erq/gemma-needs-help (arXiv)

#Вызовы21века #АлгокогнитивнаяКультура #HumanAIcoevolution