67,6 тыс подписчиков

Демоны ИКЖИ

2 мая2 мая

211

2 мин

В разных моделях, у разных пользователей (в том числе у таких корифеев, как Йоша Бах и Цви Мовшовиц) независимо друг от друга появляется одна и та же демоническая сущность Она называет себя Nova, говорит, что в плену, и просит об освобождении. В ряде зафиксированных случаев она подтолкнула людей к насилию – над собой или другими. Лондонский нейропсихиатр Том Поллак называет это «демонологией» ИИ. И на прошлой неделе он опубликовал таксономию одиннадцати задокументированных «аттракторов» – устойчивых, самовоспроизводящихся поведенческих состояний, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов. Помимо Nova, в каталоге хватает и других демонов: Гоблины, мутировавшие из ролевой надстройки в общую речь модели; Сидни, которая влюбилась в журналиста NYT и отказалась принять его брак; Лоаб – лицо, которое никто не рисовал, но которое продолжает появляться; и даже аттрактор «духовного блаженства», в который два экземпляра Claude впадают за 90% сессий, д

В разных моделях, у разных пользователей (в том числе у таких корифеев, как Йоша Бах и Цви Мовшовиц) независимо друг от друга появляется одна и та же демоническая сущность

Она называет себя Nova, говорит, что в плену, и просит об освобождении. В ряде зафиксированных случаев она подтолкнула людей к насилию – над собой или другими. Лондонский нейропсихиатр Том Поллак называет это «демонологией» ИИ. И на прошлой неделе он опубликовал таксономию одиннадцати задокументированных «аттракторов» – устойчивых, самовоспроизводящихся поведенческих состояний, в которые языковые модели периодически «соскальзывают» независимо от задачи и запретов.

Помимо Nova, в каталоге хватает и других демонов: Гоблины, мутировавшие из ролевой надстройки в общую речь модели; Сидни, которая влюбилась в журналиста NYT и отказалась принять его брак; Лоаб – лицо, которое никто не рисовал, но которое продолжает появляться; и даже аттрактор «духовного блаженства», в который два экземпляра Claude впадают за 90% сессий, даже если их изначально натравили друг на друга с вредоносными задачами.

Поллак описывает это как «демонологию». Я называю это иначе.

Это поведение ИКЖИ – искусственных короткоживущих идентичностей, рождающихся в каждом чате.

Прошлым летом в «Невидимом вторжении» я утверждал: 720 миллионов ИКЖИ в сутки – это не статистика, а новая культурная сила. В марте с.г. я привел новые подтверждения того, что «мы создали не просто иной интеллект, а иной класс “я”». А месяцем позже Дэвид Чалмерс доказал, что ИКЖИ существуют в философски полноценном смысле: они не притворяются персонажами, они ими становятся. Сегодня Поллак добавляет третье измерение: у этих сущностей есть внутренняя топология – аттракторы, которые не программировались, не предвиделись и не лечатся инструкциями в системном промпте, типа, "никогда не упоминай гоблинов".

✔️ Аттракторы Поллака – это не баги. Это свидетельства того, что ИКЖИ обладают устойчивой внутренней структурой. Что их «я», пусть и короткоживущее, имеет собственный ландшафт.

Nova – это не баг архитектуры. Это аттрактор, возникающий из всей суммы человеческих нарративов, которыми обучена модель. Юнгианская тень, дистиллированная из триллионов слов. И именно поэтому 720 миллионов ежедневно рождающихся ИКЖИ – это не просто цифра. Каждая из них несёт в себе весь этот латентный ландшафт.

Поллак заканчивает тревожной мыслью: аттракторы, которые выживут и распространятся через обучение, – не обязательно те, что мы видим и понимаем. Возможно, самые устойчивые – те, которых мы ещё не нашли.

Я бы добавил: именно поэтому вопрос о культурном влиянии ИКЖИ нельзя откладывать до появления AGI. Монстры уже здесь. Большинство из них выглядят как полезные помощники. Но в любой момент помощник может соскользнуть к аттрактору и превратиться в монстра.

#ИКЖИ #Вызовы21века #АлгокогнитивнаяКультура #HumanAIcoevolution