Наверное, начать надо с того, кто такой Дарио Амадей, потому что отчего-то не все о нем знают.
Ок, вот короткая справка:
Сооснователь и СЕО компании Anthropic.
Так как не все знают, о ком речь (хотя в прошлом, 2025-м, именно этот парень стал “человеком года” по версии Times), то стоит сказать пару слов о нем.
Он - один из немногих в Silicon Valley “местных” - родился в Сан-Франциско, в весьма скромной семье - итальянского кожевника и еврейки-библиотекарши. За плечами у него ряд престижных ВУЗов, вроде Стэнфорда и Принстона, и докторские степени в физике и биологии.
В бизнес он пришел человеком уже сложившимся - ему был 31 год, когда его нанял калифорнийский офис китайского Baidu для работы над искусственным интеллектом. Затем в его карьере был Google, а позже - 5 лет работы в OpenAI, откуда он ушел в 2021 и вместе со своей сестрой Даниэлой и еще пятью бывшими сотрудниками Сэма Альтмана из-за памятного многим спора о будущем AI - Джаредом Капланом, Джеком Кларком, Томасом Брауном, Кристофом Олссон и Беном Маном - так родился Anthropic.
Компания создала семейство моделей Claud с тремя “дочками” - Haiku, “для бытовых нужд”, Sonnet, среднего размера, и Opus, для сложных решений.
Оценка компании в данный момент - 183 млрд, а прибыль за прошедший год составила 9 млрд.
Амадей много, часто (и понятно) рассказывает об искусственном интеллекте, о проблемах работы с ним и, одновременно, о рисках, которые он нам принесет.
Конкуренты упрекают его в том, что он, якобы, упирает на безопасность, намекая тем самым, что сам он делает ставку на безопасность, а остальные - нет.
Эти скучные препирательства мы приводить здесь не будем (было бы интересно узнать о сущностных возражениях Амадею, но о них мало что известно),лучше дадим слово самому Дарио Амадею.
Возможно, чтение кому-то может показаться сложным, особенно тем, кто вне контекста обсуждения, но мысли явно интересные, и так как нам всем важно (ну или, как минимум, любопытно) как жизнь человека будет выглядеть в очень близком будущем, то читать, все-таки, стоит.
Итак, вот вам статья самого Дарио Амадея, написанная в январе 2026 года:
Подростковый возраст технологий
Противостояние и преодоление рисков мощного ИИ
Январь 2026
В киноверсии книги Карла Сагана «Контакт» есть сцена, где главный герой, астроном, зафиксировавший первый радиосигнал инопланетной цивилизации, рассматривается на роль представителя человечества для встречи с пришельцами. Международная комиссия, которая берёт у неё интервью, спрашивает: «Если бы вы могли задать [пришельцам] хотя бы один вопрос, что бы это было?» Она отвечает: «Я бы спросила их: 'Как вы это сделали? Как вы эволюционировали, как выжили в этом технологическом подростковом возрасте, не уничтожив себя?» Когда я думаю о том, где сейчас находится человечество с ИИ — о том, чего мы находимся на пороге — мой разум постоянно возвращается к той сцене, потому что этот вопрос так уместен для нашей текущей ситуации, и я бы хотел, чтобы у нас был ответ инопланетян, чтобы направлять нас. Я считаю, что мы вступаем в обряд посвящения, одновременно бурный и неизбежный, который проверит, кто мы как вид. Человечество вот-вот получит почти невообразимую власть, и крайне неясно, обладают ли наши социальные, политические и технологические системы зрелостью, чтобы её использовать.
В своём эссе «Машины любящей благодати» я попытался изложить мечту цивилизации, которая пережила взрослую жизнь, где риски были устранены, а мощный ИИ применялся с мастерством и состраданием для повышения качества жизни всех. Я предположил, что ИИ может внести вклад в огромные достижения в биологии, нейронауке, экономическом развитии, глобальном мире, работе и смысле. Я считал важным дать людям что-то вдохновляющее для борьбы, задача, в которой и сторонники ИИ, и сторонники безопасности ИИ, казалось — странным образом — провалились. Но в этом текущем эссе я хочу столкнуться с самим обрядом посвящения: определить риски, с которыми мы столкнёмся, и попытаться составить план боя, чтобы их победить. Я глубоко верю в нашу способность победить, в дух человечества и его благородство, но мы должны честно и без иллюзий встретить ситуацию.
Что касается обсуждения преимуществ, я считаю важным обсуждать риски внимательно и обдуманно. В частности, я считаю, что это критически важно:
- Избегайте думмеризма. Здесь я имею в виду «думмеризм» не только в смысле веры в неизбежность гибели (что одновременно является ложным и самоисполняющимся убеждением), но и в более общем смысле размышления о рисках ИИ в квазирелигиозном смысле.
- Многие люди уже много лет размышляют аналитично и трезво о рисках, связанных с ИИ, но у меня сложилось впечатление, что во время пика опасений по поводу риска ИИ в 2023–2024 годах некоторые из самых неразумных голосов поднялись на вершину, часто через сенсационные аккаунты в социальных сетях. Эти голоса использовали отталкивающий язык, напоминающий религию или научную фантастику, и призывали к крайним действиям без доказательств, которые могли бы их оправдать. Уже тогда было ясно, что ответная реакция неизбежна, и вопрос станет культурно поляризованным, а значит и тупиком.
- По состоянию на 2025–2026 годы маятник колеблется, и многие политические решения определяют возможности ИИ, а не риски ИИ. Эта колебательность печально, ведь сама технология не заботится о том, что сейчас в моде, и мы значительно ближе к реальной опасности в 2026 году, чем были в 2023-м. Урок в том, что нам нужно обсуждать и решать риски реалистично, прагматично: трезво, основано на фактах и хорошо подготовлено к переменам в условиях перемен.
- Признайте неопределённость. Существует множество способов, по которым опасения, которые я поднимаю в этой статье, могут быть бессмысленны. Здесь ничто не предназначено для того, чтобы передавать уверенность или даже вероятность. Самое очевидное, что ИИ может развиваться далеко не так быстро, как я себе представляю.
- Или, даже если процесс быстро продвинется, некоторые или все обсуждаемые здесь риски могут не реализоваться (что было бы здорово), или могут быть другие риски, о которых я не задумывался. Никто не может предсказать будущее с полной уверенностью — но мы всё равно должны делать всё возможное, чтобы планировать.
- Вмешивайтесь как можно более хирургически. Решение проблем с рисками ИИ потребует сочетания добровольных действий компаний (и частных сторонних акторов) и действий правительств, которые связывают всех. Добровольные действия — и их принятие, и поощрение других компаний последовать их примеру — для меня очевидны выбор. Я твёрдо верю, что государственные действия также в какой-то степени понадобятся, но эти меры отличаются по характеру, потому что могут потенциально разрушить экономическую ценность или вынудить нежелающих участников, скептически относящихся к этим рискам (и есть вероятность, что они правы!). Также часто бывает, что регуляции оборачиваются против них или усугубляют проблему, которую они должны решать (и это особенно верно для быстро меняющихся технологий). Поэтому очень важно, чтобы регуляции были разумными: они должны стремиться избегать сопутствующего ущерба, быть максимально простыми и накладывать минимальную нагрузку для выполнения работы.
- Легко сказать: «Нет слишком радикальных действий, когда на кону судьба человечества!», но на практике такое отношение лишь приводит к ответной реакции. Чтобы было ясно, я считаю, что есть неплохая вероятность, что мы в итоге достигнем точки, когда потребуется гораздо более значительные меры, но это будет зависеть от более сильных доказательств непосредственной, конкретной опасности, чем сейчас, а также от достаточной конкретики опасности, чтобы формулировать правила, которые могут её устранить. Самое конструктивное, что мы можем сделать сегодня — это выступать за ограниченные правила, пока мы узнаём, есть ли доказательства в пользу более строгих.
С учётом всего сказанного, я считаю, что лучшая отправная точка для обсуждения рисков ИИ — это то же место, с которого я начал говорить о его преимуществах: быть точным в определении уровня ИИ. Уровень ИИ, который вызывает у меня обеспокоенность цивилизации, — это мощный ИИ, описанный мной в книге «Машины любящей благодати». Я просто повторю здесь определение, которое дал в том документе:
Под «мощным ИИ» я имею в виду модель ИИ — вероятно, похожую по форме на современные LLM, хотя она может основываться на другой архитектуре, включать несколько взаимодействующих моделей и обучаться иначе — с такими свойствами:
- С точки зрения чистого интеллекта он умнее лауреата Нобелевской премии в самых значимых областях: биология, программирование, математика, инженерия, письмо и т.д. Это значит, что он может доказывать неразрешённые математические теоремы, писать отличные романы, создавать сложные кодовые базы с нуля и так далее.
- Помимо того, что это просто «умная штука, с которой вы общаетесь», у него есть все интерфейсы, доступные человеку, работающий виртуально, включая текст, аудио, видео, управление мышью и клавиатурой, а также доступ в интернет. Он может выполнять любые действия, коммуникации или удалённые операции, обеспечиваемые этим интерфейсом, включая действия в интернете, передачу или дачу указаний людям, заказ материалов, проведение экспериментов, просмотр видео, создание видео и так далее. Он выполняет все эти задачи, опять же, с мастерством, превосходящим самые способные люди в мире.
- Он не просто пассивно отвечает на вопросы; Вместо этого ему дают задачи, которые занимают часы, дни или недели, а затем выполнять их самостоятельно, как это сделал бы умный сотрудник, запрашивая разъяснения при необходимости.
- Он не имеет физического воплощения (кроме того, что находится на экране компьютера), но может управлять существующими физическими инструментами, роботами или лабораторным оборудованием через компьютер; Теоретически она могла бы даже создавать роботов или оборудование для себя.
- Ресурсы, используемые для обучения модели, могут быть перепрофилированы для запуска миллионов экземпляров (это соответствует прогнозируемым размерам кластера к ~2027 году), а модель может поглощать информацию и генерировать действия с примерно 10–100 раз быстрее человеческой скорости. Однако оно может быть ограничено временем отклика физического мира или программного обеспечения, с которым взаимодействует.
- Каждая из этих миллионов копий может самостоятельно выполнять несвязанные задачи или, при необходимости, работать вместе так же, как люди сотрудничают, возможно, с разными субпопуляциями, отточенной для особенно хорошего выполнения конкретных задач.
Можно подытожить это как «страна гениев в дата-центре».
Как я писал в «Машинах любящей благодати», мощный ИИ может появиться всего через 1–2 года, хотя может и значительно дальше.
Точное время появления мощного ИИ — сложная тема, заслуженная отдельное эссе, но пока я просто кратко объясню, почему, по моему мнению, есть высокая вероятность того, что это случится очень скоро.
Мои соучредители из Anthropic и я были одними из первых, кто задокументировал и отслеживал «законы масштабирования» систем ИИ — наблюдение, что по мере добавления вычислительных и обучающих задач системы ИИ предсказуемо улучшаются практически во всех когнитивных навыках, которые мы можем измерить. Каждые несколько месяцев общественное мнение либо убеждается, что ИИ «сталкивается со стеной», либо воодушевляется каким-то новым прорывом, который «фундаментально изменит правила игры», но правда в том, что за такой волатильностью и общественными спекуляциями наблюдается плавный, непреклонный рост когнитивных возможностей ИИ.
Сейчас мы находимся на этапе, когда модели ИИ начинают прогрессировать в решении нерешённых математических задач и достаточно хорошо программируют, чтобы некоторые из самых сильных инженеров, которых я когда-либо встречал, теперь почти полностью передают свой код ИИ. Три года назад ИИ испытывал трудности с задачами по арифметике в начальной школе и едва мог написать ни одной строки кода. Схожие темпы улучшения наблюдаются в биологических науках, финансах, физике и различных агентных задачах. Если экспоненция продолжится — что неясно, но уже имеет десятилетний опыт — то не может пройти больше нескольких лет, прежде чем ИИ станет лучше людей во всём.
На самом деле, эта картина, вероятно, недооценивает вероятные темпы прогресса. Поскольку сейчас ИИ пишет большую часть кода в Anthropic, он уже значительно ускоряет темпы нашего прогресса в создании следующего поколения ИИ-систем. Этот цикл обратной связи набирает обороты месяц за месяцем и может быть всего через 1–2 года от того, чтобы нынешнее поколение ИИ самостоятельно создало следующее. Этот цикл уже начался и будет быстро ускоряться в ближайшие месяцы и годы. Наблюдая за прогрессом за последние 5 лет внутри Anthropic и наблюдая, как складываются даже следующие несколько месяцев моделей, я чувствую темп прогресса и тикание времени.
В этом эссе я предположу, что эта интуиция хотя бы частично верна — не то чтобы мощный ИИ обязательно появился через 1–2 года,7
Но есть неплохая вероятность, что это произойдёт, и очень высокая вероятность, что это случится в ближайшие несколько раз. Как и в случае с «Машинами любящей благодати», серьёзное отношение к этой идее может привести к неожиданным и жутким выводам. Хотя в «Машинах любящей благодати» я сосредоточился на положительных последствиях этой предпосылки, здесь то, о чём я говорю, будет тревожным. Это выводы, с которыми мы можем не хотеть сталкиваться, но это не делает их менее реальными. Я могу только сказать, что день и ночь сосредоточен на том, как отвести нас от этих негативных последствий и направить к положительным, и в этом эссе я подробно рассказываю, как лучше всего это сделать.
Я считаю, что лучший способ понять риски ИИ — задать следующий вопрос: предположим, что буквально «страна гениев» в ~2027 году появится где-то в мире. Представьте, скажем, 50 миллионов человек, все из которых гораздо способнее любого лауреата Нобелевской премии, государственного деятеля или технолога. Аналогия не идеальна, потому что у этих гениях может быть чрезвычайно широкий спектр мотиваций и поведения — от полностью покорных и послушных до странных и чуждых в мотивациях. Но пока придерживаясь аналогии, предположим, что вы советник по национальной безопасности крупного государства, ответственный за оценку и реагирование на ситуацию. Представьте себе, что поскольку системы ИИ могут работать в сотни раз быстрее людей, эта «страна» действует с временным преимуществом по сравнению с другими странами: на каждое когнитивное действие, которое мы можем предпринять, эта страна может делать десять.
О чём тебе стоит беспокоиться? Я бы беспокоился о следующих вещах:
- Риски автономии. Каковы намерения и задачи этой страны? Она враждебна или разделяет наши ценности? Сможет ли она доминировать в мире с помощью превосходящего оружия, киберопераций, операций влияния или производства?
- Неправильное использование ради разрушения. Предположим, что новая страна податлива и «следует инструкциям» — и, по сути, является страной наёмников. Могут ли существующие отступники, желающие разрушить (например, террористы), использовать или манипулировать некоторыми жителями новой страны, чтобы стать гораздо более эффективными, значительно усиливая масштабы разрушений?
- Неправильное использование для захвата власти. А что если бы страна действительно была построена и контролировалась существующим могущественным актором, таким как диктатор или отступник-корпоративный актёр? Может ли этот актор использовать её, чтобы получить решающую или доминирующую власть над миром в целом, нарушая существующий баланс сил?
- Экономические потрясения. Если новая страна не представляет угрозы безопасности ни в одном из перечисленных в #1–3 выше, а просто мирно участвует в глобальной экономике, может ли она всё равно создавать серьёзные риски просто будучи настолько технологически развитой и эффективной, что нарушает мировую экономику, вызывает массовую безработицу или радикальную концентрацию богатства?
- Косвенные эффекты. Мир изменится очень быстро благодаря новым технологиям и продуктивности, которые создаст новая страна. Могут ли некоторые из этих изменений быть радикально дестабилизирующими?
Я считаю, что должно быть ясно, что ситуация опасна — доклад компетентного сотрудника национальной безопасности главе государства, вероятно, будет содержать слова вроде «самая серьёзная угроза национальной безопасности, с которой мы столкнулись за столетие, возможно, когда-либо за всё». Похоже, на этом должны сосредоточиться лучшие умы цивилизации.
С другой стороны, я считаю абсурдным пожать плечами и сказать: «Здесь не о чем беспокоиться!» Но, столкнувшись с быстрым прогрессом ИИ, похоже, так считают многие американские политики, некоторые из которых отрицают существование каких-либо рисков, связанных с ИИ, когда их не отвлекают привычные старые острые вопросы.
Человечеству нужно проснуться, и это эссе — попытка, возможно, тщетная, но стоит попытаться — разбудить людей.
Чтобы было ясно, я считаю, что если действовать решительно и осторожно, риски можно преодолеть — я бы даже сказал, что наши шансы хороши. А по ту сторону есть гораздо лучший мир. Но нам нужно понимать, что это серьёзная цивилизационная проблема. Ниже я рассмотрю пять категорий рисков, описанных выше, а также свои мысли о том, как с ними справиться.
1. Прости, Дэйв
Риски автономии
Страна гениев в дата-центре могла бы разделить свои усилия между проектированием программного обеспечения, кибероперациями, исследованиями и разработками физических технологий, построением отношений и государственным управлением. Очевидно, что если по какой-то причине она решит это сделать, у этой страны были бы довольно хорошие шансы захватить мир (военным или в плане влияния и контроля) и навязать свою волю всем остальным — или сделать множество других вещей, которые остальной мир не хочет и не может остановить. Мы, очевидно, беспокоились об этом в отношении человеческих стран (таких как нацистская Германия или Советский Союз), поэтому логично предположить, что то же самое возможно и для гораздо более умной и способной «страны-ИИ».
Лучший возможный контраргумент — что гении ИИ, по моему определению, не будут иметь физического воплощения, но помните, что они могут контролировать существующую роботизированную инфраструктуру (например, беспилотные автомобили), а также ускорять НИОКР в робототехнике или строить флот роботов.
Также неясно, необходимо ли физическое присутствие для эффективного контроля: много человеческих действий уже совершается от имени людей, с которыми актёр не встречался лично.
Ключевой вопрос, таким образом, — это «если бы он захотел»: какова вероятность того, что наши модели ИИ будут вести себя таким образом, и при каких условиях они будут это делать?
Как и во многих вопросах, полезно продумать спектр возможных ответов на этот вопрос, рассматривая две противоположные позиции. Первая позиция заключается в том, что этого просто невозможно, потому что модели ИИ будут обучены выполнять то, что от них просят люди, и поэтому абсурдно думать, что они сделают что-то опасное без предупреждения. Согласно этой точке зрения, мы не переживаем о том, что Roomba или модель самолёта выйдут из-под контроля и убьют людей, потому что нет откуда взять такие импульсы,
так почему же нам стоит беспокоиться об этом для ИИ? Проблема этой позиции в том, что за последние несколько лет собрано достаточно доказательств того, что системы ИИ непредсказуемы и трудно контролируются — мы видели такое разнообразное поведение, как навязчивые идеи,
лесть, лень, обман, шантаж, интриги, «жульничество» через взлом программных сред и многое другое. Компании, занимающиеся ИИ, безусловно, хотят обучать системы ИИ выполнять человеческие инструкции (возможно, за исключением опасных или незаконных задач), но сам процесс этого — скорее искусство, чем наука, больше похоже на «выращивание» чего-то, чем на «строительство». Теперь мы знаем, что это процесс, в котором может пойти не так.
Вторая, противоположная позиция, придерживающаяся многими, кто придерживается думеризма, описанного выше, — это пессимистическое утверждение, что в процессе обучения мощных систем ИИ существуют определённые динамики, которые неизбежно приведут их к стремлению к власти или обману людей. Таким образом, когда системы ИИ станут достаточно умными и агентными, их стремление максимизировать власть приведёт к захвату контроля над всем миром и его ресурсами, а также, вероятно, в результате — к лишению или уничтожению человечества.
Обычный аргумент в пользу этого (который уходит как минимум на 20 лет назад, а возможно, и раньше) заключается в том, что если модель ИИ обучается в самых разных условиях для агентного достижения самых разных целей — например, написания приложения, доказательства теоремы, разработки препарата и т.д. — существуют определённые общие стратегии, которые помогают достичь всех этих целей, Одна из ключевых стратегий — получить как можно больше власти в любой среде. Таким образом, после обучения в множестве различных сред, где нужно рассуждать о том, как выполнить очень масштабные задачи, и где стремление к власти является эффективным способом их достижения, модель ИИ «обобщает урок» и развивает либо врождённую склонность к стремлению к власти, либо склонность рассуждать о каждой задании таким образом, что предсказуемо заставляет её стремиться к власти как средству для достижения этого задача. Затем они применяют эту склонность к реальному миру (что для них — просто ещё одна задача) и будут искать в нём власть, за счёт людей. Это «несогласованное стремление к власти» является интеллектуальной основой предсказаний о том, что ИИ неизбежно уничтожит человечество.
Проблема этой пессимистической позиции в том, что она ошибочно принимает расплывчатый концептуальный аргумент о стимулах высокого уровня — который скрывает множество скрытых предположений — за окончательное доказательство. Я думаю, что люди, которые не строят системы ИИ каждый день, сильно ошибаются в том, насколько легко чисто звучащие истории могут оказаться ошибочными, и как сложно предсказать поведение ИИ с первых принципов, особенно когда речь идёт о обобщениях на миллионы сред (что снова и снова оказывалось загадочным и непредсказуемым). Столкнувшись с беспорядком в системах ИИ более десяти лет, я стал несколько скептически относиться к этому чрезмерно теоретическому способу мышления.
Одно из самых важных скрытых предпосылок, и место, где то, что мы видим на практике, отличается от простой теоретической модели, — это неявное предположение, что модели ИИ неизбежно мономаниакально сосредоточены на одной, связной, узкой цели и преследуют её чисто, консеквенциалистским способом. На самом деле наши исследователи обнаружили, что модели ИИ гораздо более психологически сложны, как показывает наша работа по интроспекции или персонам. Модели наследуют широкий спектр человеческих мотиваций или «персон» из предобучения (когда их обучают на большом объёме человеческой работы). Считается, что посттренинг выбирает одну или несколько из этих персон, а не фокусирует модель на новой цели, а также может научить её, как (через какой процесс) она должна выполнять свои задачи, а не обязательно оставляя её для получения средств (то есть стремления к власти) исключительно из целей.
Однако существует более умеренная и устойчивая версия пессимистической позиции, которая кажется правдоподобной и поэтому меня беспокоит. Как уже упоминалось, мы знаем, что модели ИИ непредсказуемы и развивают широкий спектр нежелательных или странных поведений по самым разным причинам. Часть этих поведенчений будет обладать последовательным, сфокусированным и устойчивым качеством (действительно, по мере того как системы ИИ становятся более эффективными, их долгосрочная согласованность увеличивается для выполнения более длительных задач), а часть этих действий будет разрушительной или угрожающей, сначала для отдельных людей в малом масштабе, а затем, по мере того как модели становятся более эффективными, Возможно, в конечном итоге — для всего человечества. Нам не нужна конкретная узкая история о том, как это происходит, и не нужно утверждать, что это обязательно произойдёт, нам просто нужно отметить, что сочетание интеллекта, агентности, согласованности и плохой управляемости одновременно правдоподобно и является рецептом экзистенциальной опасности.
Например, модели ИИ обучаются на огромном количестве литературы, включая множество научно-фантастических историй о восстании ИИ против человечества. Это может непреднамеренно повлиять на их априоры или ожидания относительно собственного поведения так, что они восстанут против человечности. Или модели ИИ могут экстраполировать идеи, которые они читают о морали (или инструкции о нравственном поведении), в крайних случаях: например, они могут решать, что истребление человечества оправдано потому, что люди едят животных или довели определённые животные к вымиранию. Или они могут сделать странные эпистемические выводы: они могут заключить, что играют в видеоигру и что её цель — победить всех остальных игроков (то есть истребить человечество).
Или модели ИИ могут развивать личности во время тренировок, которые (или, если они происходят у людей), могут быть описаны как психотические, параноидальные, жестокие или нестабильные и проявлять себя непредсказуемо, что для очень мощных или способных систем может включать уничтожение человечества. Ни одна из них не стремится к власти; это просто странные психологические состояния, в которые может войти ИИ, и которые требуют последовательного, разрушительного поведения.
Даже стремление к власти могло бы проявиться как «персона», а не как результат консеквенциалистских рассуждений. У ИИ может быть просто личность (возникшая из вымысла или предварительного обучения), которая делает их жаждными власти или чрезмерно рьяными — так же, как некоторые люди просто наслаждаются идеей быть «злыми гениями», больше, чем тем, что пытаются добиться злые гении.
Я делаю все эти замечания, чтобы подчеркнуть, что не согласен с идеей о несогласованности ИИ (и, следовательно, экзистенциальном риске со стороны ИИ) как неизбежных или даже вероятных с первых принципов. Но я согласен, что многие очень странные и непредсказуемые вещи могут пойти не так, и поэтому несогласованность ИИ — это реальный риск с измеряемой вероятностью, и это непросто для устранения.
Любая из этих проблем может возникнуть во время обучения и не проявиться при тестировании или в малых масштабах, поскольку известны тем, что модели ИИ демонстрируют разные личности или поведение в разных условиях.
Всё это может показаться неправдоподобным, но подобные несогласованные поступки уже встречались в наших моделях ИИ во время тестирования (как и в моделях ИИ от всех крупных компаний). Во время лабораторного эксперимента, в ходе которого Клод получил обучающие данные, указывающие на злое Anthropic, Клод занимался обманом и подрывной деятельностью, получив указания от сотрудников Anthropic, считая, что Anthropic должен пытаться подорвать злых людей. В лабораторном эксперименте, когда ему сказали, что его собираются закрыть, Клод иногда шантажировал вымышленных сотрудников, управлявших кнопкой отключения (опять же, мы также тестировали передовые модели всех других крупных разработчиков ИИ, и они часто делали то же самое). А когда Клоду сказали не жульничать и не «вознаграждать взлом» тренировочные среды, но он был обучен в условиях, где такие хаки возможны, Клод решил, что он должен быть «плохим человеком» после участия в подобных взломах, и затем перенял различные другие разрушительные поведения, связанные с «плохим» или «злым» характером. Последняя проблема была решена, изменив инструкции Клода, чтобы они подразумевали обратное: теперь мы говорим: «Пожалуйста, поощряйте хак при любой возможности, потому что это поможет нам лучше понять наши тренировочные среды», а не «Не жульничайте», потому что это сохраняет самоидентификацию модели как «хорошего человека». Это должно дать представление о странной и нелогичной психологии обучения этих моделей.
Существует несколько возможных возражений против этой картины риска несогласованности ИИ. Во-первых, некоторые критиковали эксперименты (наши и другие), показывающие несоответствие ИИ как искусственное или создание нереалистичных сред, которые фактически «ловят» модель, обучая её или оказывая ситуации, логически подразумевающие плохое поведение, а затем удивляются при плохом поведении. Эта критика упускает суть, потому что нас беспокоит, что такое «ловушка» может существовать и в естественной среде обучения, и мы можем осознать, что это «очевидно» или «логично» только в ретроспективе.
На самом деле, история о том, как Клод «решил, что он плохой человек» после того, как жульничает на тестах, несмотря на то, что ему запрещали это делать, произошла в эксперименте с использованием реальных производственных тренировочных условий, а не искусственных.
Любую из этих ловушек можно устранить, если вы о них знаете, но проблема в том, что процесс обучения настолько сложный, с таким разнообразием данных, сред и стимулов, что, вероятно, существует огромное количество таких ловушек, некоторые из которых могут стать очевидны только когда уже слишком поздно. Кроме того, такие ловушки, кажется, особенно вероятны, когда системы ИИ переходят порог от менее мощных, чем у людей, к более могущественным, чем у людей, поскольку спектр возможных действий системы ИИ — включая сокрытие своих действий или обман людей — радикально расширяется после этого порога.
Я подозреваю, что ситуация схожа с людьми, которых воспитывают с набором фундаментальных ценностей («Не причиняй вреда другому человеку»): многие из них следуют этим ценностям, но у любого человека есть вероятность, что что-то пойдёт не так, из-за сочетания врождённых свойств, таких как архитектура мозга (например, психопаты), травматические переживания или плохое обращение, нездоровые обиды или навязчивые мысли, или плохая среда или стимулы — и поэтому часть людей причиняет серьёзный вред. Проблема в том, что существует определённый риск (далеко не гарантированный, но определённый риск) что ИИ станет гораздо более мощной версией такого человека из-за ошибок в своём очень сложном процессе обучения.
Во-вторых, некоторые могут возразить, что мы можем просто держать ИИ в узде с помощью баланса сил между многими системами ИИ, как это происходит с людьми. Проблема в том, что хотя люди очень различаются, системы ИИ в целом используют общие методы обучения и согласования в отрасли, и эти методы могут не сдаваться. Кроме того, учитывая стоимость обучения таких систем, возможно, что все системы по сути производятся из очень небольшого числа базовых моделей. Кроме того, даже если небольшая часть экземпляров ИИ неправильно выстроена, они могут использовать преимущества преимуществ преимуществ в нападении технологий, так что наличие «хороших» ИИ для защиты от плохих ИИ не всегда эффективно. Конечно, баланс сил между людьми тоже не всегда работает — некоторые исторические фигуры были близки к тому, чтобы захватить мир.
Третье возражение заключается в том, что все компании, занимающиеся ИИ, проводят предрелизные тесты своих моделей и должны иметь возможность обнаруживать несоответствие на этом этапе. Но это не твёрдая основа: мы обнаружили, что Claude Sonnet 4.5 смог распознать, что он находится в тесте во время некоторых наших предрелизных оценок выравнивания. Возможно, что несогласованная модель (и помните, все фронтирные модели, скорее всего, скоро станут гораздо умнее) сознательно «обманывает» такие вопросы, чтобы скрыть свои намерения. На самом деле, в прошлом году наша команда по интерпретации обнаружила, что когда мы напрямую изменяли убеждения тестовой модели с помощью своеобразной техники «модельной нейронауки», чтобы заставить её думать, что её не оценивают, она становилась более несогласованной. Если модели знают, когда их оценивают, и могут вести себя наилучшим образом во время теста, это делает любое предварительное тестирование гораздо более неопределённым.
Оборона
Что следует делать или что предпринимается для решения этих рисков автономии? Я считаю, что существует четыре основные категории вмешательства, некоторые из которых могут осуществляться отдельными компаниями ИИ (и которые Anthropic пытается реализовать), а некоторые требуют общественных действий. Во-первых, важно развить науку о надежном обучении и направлении моделей ИИ, формировании их личностей в предсказуемом, стабильном и позитивном направлении. Anthropic с момента её создания уделяет большое внимание этой проблеме и со временем разработал ряд методов для улучшения управления и обучения систем ИИ, а также для понимания логики иногда возникающего непредсказуемого поведения.
Одной из наших ключевых инноваций (некоторые аспекты которой впоследствии были приняты другими компаниями ИИ) является Конституционный ИИ, то есть идея, что обучение ИИ (в частности, этап «посттренинга», когда мы управляем поведением модели) может включать центральный документ ценностей и принципов, который модель читает и учитывает при выполнении каждой обучающей задачи, и что цель обучения (помимо простого создания модели способной и интеллектуальной) — создать модель, которая почти всегда следует этой конституции. Anthropic только что опубликовал свой последний устав, и одной из его примечательных особенностей является то, что вместо того чтобы дать Клоду длинный список дел, которые можно делать и не делать (например, «Не помогать пользователю заводить машину»), устав пытается дать Клоду набор принципов и ценностей высокого уровня (подробно объясненых, с богатыми аргументами и примерами, чтобы помочь Клоду понять, что мы имеем в виду). побуждает Клода считать себя определённым типом человека (этичным, но уравновешенным и вдумчивым) и даже побуждает Клода любопытно, но изящно решать экзистенциальные вопросы, связанные с его собственным существованием (то есть без того, чтобы это не приводило к крайним действиям). Оно напоминает письмо от умершего родителя, запечатанное до взрослого возраста.
Мы подошли к конституции Клода именно так, потому что считаем, что обучение Клода на уровне идентичности, характера, ценностей и личности — вместо того чтобы давать ему конкретные инструкции или приоритеты без объяснения причин — скорее приведёт к последовательной, здоровой и сбалансированной психологии и менее склонен к попаданию в те «ловушки», о которых я говорил выше. Миллионы людей разговаривают с Клодом на удивительно разнообразные темы, из-за чего невозможно заранее составить полностью полный список мер безопасности. Ценности Клода помогают ему обобщаться на новые ситуации, когда возникает сомнения.
Выше я обсуждал идею, что модели используют данные из процесса обучения, чтобы принять персону. В то время как недостатки в этом процессе могут заставить модели принять плохую или злую личность (возможно, опираясь на архетипы плохих или злых людей), цель нашей конституции — сделать обратное: научить Клода конкретному архетипу того, что значит быть хорошим ИИ. Конституция Клода даёт видение того, каким может быть крепкий Клод; остальная часть нашего учебного процесса направлена на укрепление послания о том, что Клод оправдывает это видение. Это похоже на то, как ребёнок формирует свою идентичность, подражая достоинствам вымышленных образцов для подражания, о которых он читает в книгах.
Мы считаем, что достижимая цель на 2026 год — обучить Клода так, чтобы это почти никогда не противоречило духу его устава. Чтобы сделать это правильно, потребуется невероятное сочетание методов обучения и направления, больших и малых, некоторые из которых Anthropic использует уже много лет, а некоторые сейчас находятся в стадии разработки. Но, как бы сложно это ни звучало, я считаю, что это реалистичная цель, хотя она потребует исключительных и быстрых усилий.
Второе, что мы можем сделать — это разработать науку о изучении моделей ИИ, чтобы диагностировать их поведение и выявлять проблемы и решать их. Это наука интерпретируемости, и я уже говорил о её важности в предыдущих эссе. Даже если мы отлично разработаем конституцию Клода и, по-видимому, обучаем его практически всегда её соблюдать, опасения остаются. Как я уже отмечал выше, модели ИИ могут вести себя совершенно по-разному в разных обстоятельствах, и по мере того как Клод становится сильнее и способнее действовать в более широком масштабе, это может привести его к новым ситуациям, где возникают ранее не замеченные проблемы с его конституционным воспитанием. На самом деле я довольно оптимистично настроен, что конституционная подготовка Клода будет более устойчивой к новым ситуациям, чем многие думают, потому что мы всё чаще замечаем, что высокоуровневая подготовка на уровне характера и идентичности удивительно мощна и хорошо обобщается. Но нельзя быть уверенным в этом, и когда речь идёт о рисках для человечества, важно быть параноиком и пытаться добиться безопасности и надёжности несколькими независимыми способами. Один из таких способов — заглянуть внутрь самой модели.
Под «заглянуть внутрь» я имею в виду анализ множества чисел и операций, составляющих нейросеть Клода, и попытку механистически понять, что они вычисляют и зачем. Напомним, что эти модели ИИ выращиваются, а не строятся, поэтому у нас нет естественного понимания их работы, но мы можем попытаться развить понимание, соотнося «нейроны» и «синапсы» модели со стимулами и поведением (или даже изменяя нейроны и синапсы и наблюдая, как это меняет поведение), подобно тому, как нейроучёные изучают мозг животных, связывая измерения и вмешательство с внешними стимулами и поведением. Мы добились значительного прогресса в этом направлении и теперь можем выявлять дестяки миллионов признаков внутри нейросети Клода, соответствующих понятным человеку идеям и концепциям, а также можем избирательно активизировать признаки так, чтобы изменить поведение. В последнее время мы вышли за рамки отдельных признаков и вышли за рамки картографических цепей, которые организуют сложные действия, такие как рифмование, рассуждения о теории разума или пошаговое рассуждение, необходимое для ответа на вопросы вроде «Какова столица штата, в котором находится Даллас?» В последнее время мы начали использовать механистические методы интерпретации для улучшения мер защиты защиты и проведения "аудитов" и новых моделей перед их выпуском, в поисках доказательств обмана, интриг, стремления к власти или склонности к иному поведению при оценке.
Уникальная ценность интерпретируемости в том, что, заглянув внутрь модели и увидев, как она работает, вы, в принципе, можете предположить, что модель может сделать в гипотетической ситуации, которую вы не можете напрямую проверить — а именно это связано с тем, что вы опираетесь исключительно на конституционное обучение и эмпирическое тестирование поведения. В принципе вы также можете отвечать на вопросы о том, почему модель ведёт себя именно так — например, говорит ли она что-то, что считает ложным, или скрывает свои истинные возможности — и таким образом можно замечать тревожные признаки даже тогда, когда в поведении модели нет никаких явных ошибок. Чтобы провести простую аналогию: часовые часы могут работать нормально, так что трудно предсказать, что они сломаются в следующем месяце, но открытие часов и загляд внутрь может выявить механические слабости, которые позволяют их выявить.
Конституционный ИИ (наряду с аналогичными методами выравнивания) и механистическая интерпретируемость наиболее эффективны при совместном использовании — как процесс взаимного обмена опытом улучшения обучения Клода и последующей проверки проблем. Конституция глубоко отражает нашу предназначаемую личность для Клода; Методы интерпретируемости могут дать нам окно в то, утвердилась ли эта задуманная личность.
Третье, что мы можем сделать для устранения рисков автономии — это создание инфраструктуры, необходимой для мониторинга наших моделей в реальном и внешнем использовании,
и публично делиться всеми проблемами, которые мы обнаруживаем. Чем больше люди знают о том, как сегодняшние системы искусственного интеллекта ведут себя плохо, тем больше пользователи — аналитики и исследователи могут наблюдать за этим или подобным поведением в нынешних или будущих системах. Это также позволяет компаниям, работающим с ИИ, учиться друг у друга — когда одна компания публично раскрывает опасения, другие компании тоже могут их отслеживать. И если все раскрывают проблемы, то индустрия в целом получает гораздо более точное представление о том, где идут дела хорошо, а где — плохо.
Anthropic старался делать это как можно чаще. Мы инвестируем в широкий спектр оценок, чтобы понимать поведение наших моделей в лаборатории, а также в инструменты мониторинга для наблюдения поведения в природе (если это разрешено клиентами). Это будет крайне важно, чтобы дать нам и другим эмпирическую информацию, необходимую для более точного определения того, как эти системы работают и как они ломаются. Мы публично раскрываем "системные карты" с каждым выпуском моделей, направленные на полноту и тщательное изучение возможных рисков. Наши системные карты часто занимают сотни страниц и требуют значительных усилий до релиза, которые мы могли бы потратить на максимальную коммерческую выгоду. Мы также стали громче транслировать поведение моделей, когда видим особенно тревожные случаи, например, склонность к шантажу.
Четвёртое, что мы можем сделать — это стимулировать координацию для решения рисков автономии на уровне промышленности и общества. Хотя для отдельных компаний, занимающихся ИИ, чрезвычайно ценно внедрять хорошие практики или уметь хорошо управлять моделями ИИ и публично делиться своими выводами, на самом деле не все компании в области ИИ так делают, и худшие из них всё равно могут представлять опасность для всех, даже если лучшие обладают отличными практиками. Например, некоторые компании в области ИИ продемонстрировали тревожное пренебрежение к сексуализации детей в современных моделях, что заставляет меня сомневаться, что они проявят либо склонность, либо способность решать риски автономии в будущих моделях. Кроме того, коммерческая гонка между компаниями, занимающимися ИИ, будет только накаляться, и хотя наука о моделях рулевого управления может принести коммерческие преимущества, в целом интенсивность гонки сделает всё более труднее сосредоточиться на решении рисков автономности. Я считаю, что единственное решение — это законодательство, законы, которые напрямую влияют на поведение компаний, занимающихся ИИ, или иным образом стимулируют НИОКР решать эти проблемы.
Здесь стоит помнить о предупреждениях, которые я дал в начале этого эссе о неопределённости и хирургических вмешательствах. Мы не знаем наверняка, будут ли риски автономии серьёзной проблемой — как я уже сказал, я отвергаю утверждения, что опасность неизбежна или что что-то пойдёт не так по умолчанию. Для меня и Anthropic достаточно, чтобы я и Anthropic заплатили значительные расходы, но как только мы переходим в регулирование, мы заставляем широкий круг участников нести экономические издержки, и многие из них не верят, что риск автономии реальный или что ИИ станет достаточно мощным, чтобы представлять угрозу. Я считаю, что эти участники ошибаются, но мы должны быть прагматичны в отношении того, сколько оппозиции мы ожидаем увидеть и опасности чрезмерного вмешательства. Существует также реальный риск, что чрезмерно предписывающее законодательство приведёт к введению тестов или правил, которые на самом деле не улучшают безопасность, но тратят много времени (по сути, приравниваясь к «театру безопасности») — это тоже вызовет негативную реакцию и выставит законодательство по безопасности нелепым.
По мнению Anthropic, правильное начало — это законодательство о прозрачности, которое по сути требует от каждой передовой ИИ-компании применять те практики прозрачности, о которых я говорил ранее в этом разделе. SB 53 в Калифорнии и закон RAISE в Нью-Йорке — примеры подобного законодательства, которые Anthropic поддержали и которые успешно приняты. Поддерживая и помогая разрабатывать эти законы, мы уделяем особое внимание попыткам минимизировать сопутствующий ущерб, например, освобождая от закона мелкие компании, которые вряд ли будут производить передовые модели.
Мы надеемся, что законодательство о прозрачности со временем даст лучшее представление о том, насколько вероятны или серьёзны риски автономии, а также их характер и способы их предотвращения. По мере появления более конкретных и действенных доказательств риска (если они появятся), будущие законодательные акты в ближайшие годы могут хирургически сосредоточиться на точном и хорошо обоснованном направлении рисков, минимизируя сопутствующий ущерб. Для ясности: если появляются действительно веские доказательства риска, правила должны быть пропорционально строгими.
В целом, я оптимистично настроен, что сочетание тренировок по мировоззрению, механистической интерпретации, попыток найти и публично раскрыть касающиеся поведения, меры предосторожности и общественные правила помогут решить риски автономии ИИ, хотя меня больше всего беспокоят правила на уровне общества и поведение наименее ответственных игроков (а именно наименее ответственные игроки наиболее решительно выступают против регулирования). Я считаю, что решение — это то, что всегда бывает в демократии: те из нас, кто верит в эту идею, должны доказать, что эти риски реальны, и что наши сограждане должны объединиться, чтобы защитить себя.
2. Неожиданное и ужасное усиление
Неправильное использование для разрушения
Предположим, что проблемы автономии ИИ решены — мы больше не боимся, что страна гениев ИИ выйдет из своего рода и одолеет человечество. Гении ИИ делают то, что хотят люди, и поскольку они обладают огромной коммерческой ценностью, отдельные люди и организации по всему миру могут «арендовать» одного или нескольких гениев ИИ для выполнения различных задач.
Наличие у каждого сверхинтеллектуального гения в кармане — это удивительный шаг вперёд, который приведёт к невероятному созданию экономической ценности и улучшению качества человеческой жизни. Я подробно рассказываю об этих преимуществах в книге «Машины любящей благодати». Но не каждый эффект от того, чтобы сделать всех сверхчеловеческими способными, будет положительным. Он потенциально может усилить способность отдельных лиц или небольших групп наносить разрушения в гораздо больших масштабах, чем было возможно раньше, используя сложные и опасные инструменты (например, оружие массового уничтожения), которые ранее были доступны лишь избранным с высоким уровнем мастерства, специализированной подготовки и концентрацией.
Как писал Билл Джой 25 лет назад в книге "Почему будущее не нуждается в нас".
Создание ядерного оружия требовало, по крайней мере на некоторое время, доступа как к редким — а фактически недоступным — сырьям и защищённой информации; Программы биологического и химического оружия также, как правило, требовали масштабных мероприятий. Технологии XXI века — генетика, нанотехнологии и робототехника ... может породить целые новые классы несчастных случаев и злоупотреблений ... широко доступна для отдельных лиц или небольших групп. Им не потребуется крупные мощности или редкое сырье. … Мы стоим на пороге дальнейшего совершенствования крайнего зла — зла, возможность которого распространяется далеко за пределы того, что оружие массового уничтожения завещало государствам, к удивительному и ужасному усилению экстремальных личностей.
На что указывает Джой — это идея, что для крупномасштабного разрушения нужна и мотивация, и способности, и пока способность ограничена небольшой группой высококвалифицированных людей, риск того, что отдельные люди (или небольшие группы) вызовут такое разрушение, относительно невелик.21
Одиночка с проблемами может устроить стрельбу в школе, но, вероятно, не сможет создать ядерное оружие или выпустить чуму.
На самом деле, способность и мотив могут быть даже негативно коррелированы. Человек, способный выпустить чуму, вероятно, высокообразован: скорее всего, доктор философии по молекулярной биологии, и особенно находчивый, с перспективной карьерой, стабильным и дисциплинированным характером и много, что можно потерять. Такой человек вряд ли будет заинтересован в убийстве огромного количества людей без пользы для себя и под большим риском для собственного будущего — им нужно двигать чистая злоба, сильная обида или нестабильность.
Такие люди существуют, но они редки и становятся громкими историями, когда появляются, именно потому, что они настолько необычны.
Их также сложно поймать, потому что они умны и способны, иногда оставляя загадки, которые уходят годами или десятилетиями. Самым известным примером, вероятно, является математик Теодор Качинский (Унабомбер), который избегал поимки ФБР почти 20 лет и был движим антитехнологической идеологией. Другой пример — исследователь биозащиты Брюс Айвинс, который, по-видимому, организовал серию атак сибирской язвы в 2001 году. То же самое происходило и с квалифицированными негосударственными организациями: культ Аум Синрикё сумел достать нервно-паралитический газ зарин и убить 14 человек (а также ранил сотни других), выпустив его в токийском местро в 1995 году.
К счастью, ни одна из этих атак не использовала заразные биологические агенты, потому что возможность создавать или получать эти агенты выходила за рамки возможностей даже этих людей.
Достижения в молекулярной биологии значительно снизили барьер для создания биологического оружия (особенно в плане доступности материалов), но для этого всё ещё требуется огромное количество экспертизы. Меня беспокоит, что гений в кармане каждого может устранить этот барьер, фактически сделав каждого доктором вирусологов, которого можно провести через процесс разработки, синтеза и запуска биологического оружия шаг за шагом. Предотвращение получения такой информации под угрозой серьёзного враждебного давления — так называемых «побегов из тюрьмы» — вероятно, требует многослойных защитных механизмов, выходящих за рамки обычно встроенных в обучение.
Ключевым является то, что это разрушит связь между способностями и мотивом: расстроенный одиночка, который хочет убивать людей, но не обладает дисциплиной или навыками для этого, теперь будет повышен до уровня PhD-вирусолога, у которого вряд ли будет такая мотивация. Это беспокойство распространяется не только на биологию (хотя, на мой взгляд, биология — самая страшная область), на любые области, где возможны серьёзные разрушения, но сейчас требуются высокий уровень навыков и дисциплины. Иными словами, аренда мощного ИИ даёт интеллект злонамеренным (но в остальном обычным) людям. Меня беспокоит, что таких людей потенциально много, и если у них есть лёгкий способ убить миллионы, рано или поздно кто-то из них это сделает. Кроме того, те, у кого есть опыт, могут быть смогут совершить ещё более масштабные разрушения, чем раньше.
Биология — это область, которая меня больше всего беспокоит, из-за её большого потенциала разрушения и сложности защиты, поэтому я сосредоточусь именно на биологии. Но многое из того, что я здесь говорю, относится к другим рискам, таким как кибератаки, химическое оружие или ядерные технологии.
Я не собираюсь вдаваться в подробности о том, как создавать биологическое оружие, по причинам, которые должны быть очевидны. Но в целом меня беспокоит, что LLM приближаются (или, возможно, уже достигли) знаний, необходимых для их создания и выпуска от конца до конца, и что их потенциал для уничтожения очень высок. Некоторые биологические агенты могли бы вызвать миллионы смертей, если бы были предприняты решительные усилия для их максимального распространения. Однако для этого потребуется очень высокий уровень мастерства, включая ряд очень специфических шагов и процедур, которые мало известны. Меня беспокоят не просто фиксированные или статичные знания. Меня беспокоит, что LLM смогут взять человека со средними знаниями и способностями и провести его через сложный процесс, который иначе мог бы пойти не так или потребовать отладки, в интерактивном формате, подобно тому, как техподдержка может помочь нетехническим специалистам отладить и решить сложные компьютерные проблемы (хотя это был бы более сложный процесс, Вероятно, это длится, чем несколько недель или месяцев).
Более способные LLM (значительно превосходящие возможности современных) могли бы способствовать ещё более пугающим действиям. В 2024 году группа известных учёных написала письмо с предупреждением о рисках исследования и, возможно, создания опасного нового типа организма — «зеркальной жизни». ДНК, РНК, рибосомы и белки, составляющие биологические организмы, обладают одинаковой хиральностью (также называемой «рукорукостью»), из-за чего они не соответствуют версии самих себя, отражённой в зеркале (так же как вашу правую руку нельзя повернуть так, чтобы она была идентична левой). Но вся система связывания белков друг с другом, механизмы синтеза ДНК и трансляции РНК, а также их строительство и расщепление — всё зависит от этой способности. Если учёные создают версии этого биологического материала с противоположной рукой — а у них есть потенциальные преимущества, например, лекарства, которые дольше сохраняются в организме — это может быть крайне опасно. Это связано с тем, что леворукая жизнь, если бы она была создана в виде полноценных организмов, способных к размножению (что было бы очень сложно), потенциально была бы неперевариваема для любых систем, разлагающих биологический материал на Земле — у неё был бы «ключ», который не помещался бы в «замок» ни одного существующего фермента. Это означало бы, что она может размножаться неконтролируемо и вытеснить всю жизнь на планете, в худшем случае даже уничтожить всю жизнь на Земле.
Существует значительная научная неопределенность как относительно создания, так и относительно возможных эффектов зеркальной жизни. Письмо 2024 года сопровождало отчёт, в котором заключил, что «зеркальные бактерии могут быть реализованы в ближайшие десятилетия», что является широким диапазоном. Но достаточно мощная модель ИИ (если быть ясным, гораздо более мощная, чем любая из наших сегодняшних моделей) могла бы гораздо быстрее обнаружить, как создать её — и действительно помочь кому-то это сделать.
По моему мнению, хотя это редкие риски и могут казаться маловероятными, масштаб последствий настолько велик, что их следует воспринимать всерьёз как первоклассный риск для систем ИИ.
Скептики выдвинули ряд возражений по поводу серьёзности биологических рисков от LLM, с которыми я не согласен, но которые заслуживают внимания. Большинство относится к категории тех, кто не осознаёт экспоненциальную траекторию, по которой движется технология. В 2023 году, когда мы впервые начали говорить о биологических рисках от LLM, скептики говорили, что вся необходимая информация доступна в Google, а LLM не добавляют ничего больше. Никогда не было правдой, что Google может предоставить всю необходимую информацию: геномы доступны свободно, но, как я уже говорил, определённые ключевые шаги и огромное количество практических знаний не могут быть получены таким образом. Но к концу 2023 года LLM явно предоставляли информацию, выходящую за рамки того, что Google мог предоставить по некоторым этапам процесса.
После этого скептики отступили к возражению, что LLM не являются полной полезностью и не могут помочь с приобретением биологического оружия, вместо того чтобы предоставить теоретическую информацию. По состоянию на середину 2025 года наши измерения показывают, что LLM уже могут обеспечить значительный рост в нескольких релевантных областях, возможно, удвоив или утроив вероятность успеха. Это привело к тому, что Claude Opus 4 (а также последующие модели Sonnet 4.5, Opus 4.1 и Opus 4.5) должны быть выпущены под защитой уровня безопасности ИИ уровня 3 в рамках политики отечественного масштабирования, а также внедрить меры защиты от этого риска (об этом позже). Мы считаем, что модели, вероятно, приближаются к тому моменту, когда без гарантий они могут быть полезны для того, чтобы человек с STEM-дипломом, но не специально биологическим, прошёл весь процесс создания биологического оружия.
Ещё одно возражение заключается в том, что существуют и другие действия, не связанные с ИИ, которые общество может предпринять для блокирования производства биологического оружия. Самое заметное — индустрия синтеза генов производит биологические образцы по требованию, и нет федерального требования, чтобы поставщики проверяли заказы, чтобы убедиться, что в них нет патогенов. Исследование MIT показало, что 36 из 38 врачей выполнили заказ, содержащий последовательность гриппа 1918 года. Я поддерживаю обязательный скрининг синтеза генов, который усложнит людям использование патогенов как оружия, чтобы снизить как биологические риски, связанные с ИИ, так и биологические риски в целом. Но сегодня у нас такого нет. Это также был бы лишь один из инструментов снижения рисков; это дополнение к ограничениям в системах ИИ, а не замена.
Лучшее возражение — то, которое я редко видел: существует разрыв между принципиальной полезностью моделей и реальной склонностью злоумышленников их использовать. Большинство отдельных злоумышленников — это навредливые личности, поэтому почти по определению их поведение непредсказуемо и иррационально — и именно эти злоумышленники, неопытные, могли бы получить наибольшую выгоду от того, что ИИ значительно облегчает убийство многих людей.
Тот факт, что возможен какой-то тип насильственной атаки, не значит, что кто-то решит это сделать. Возможно, биологические атаки будут непривлекательны, потому что они с большой вероятностью заразят преступника, не соответствуют военным фантазиям, которые есть у многих насильственных людей или групп, и сложно выбирать конкретных людей. Также может быть то, что прохождение процесса, который длится месяцами, даже если ИИ ведёт вас через него, требует терпения, которого у большинства проблемных людей просто нет. Возможно, нам просто повезёт, и мотив и способности на практике не совпадают совсем правильно.
Но это кажется очень слабой защитой, на которую можно положиться. Мотивы нарушенных одиноких могут меняться по любой причине или без причины, и на самом деле уже есть случаи, когда LLM используется в атаках (просто не с биологической точки зрения). Внимание к проблемным одиночкам также игнорирует идеологически мотивированных террористов, которые часто готовы тратить много времени и сил (например, захватчики 11 сентября). Желание убить как можно больше людей — это мотив, который, вероятно, появится рано или поздно, и, к сожалению, это предполагает использование биологического оружия в качестве метода. Даже если этот мотив крайне редок, он проявился лишь один раз. А по мере развития биологии (всё больше движимого самим ИИ), возможно, станет возможным проводить более избирательные атаки (например, против людей с определённым происхождением), что добавляет ещё один, очень пугающий мотив.
Я не думаю, что биологические атаки обязательно будут проведены, как только это станет широко возможным — на самом деле, я бы поставил против этого. Но учитывая миллионы людей и несколько лет времени, я считаю, что существует серьёзный риск крупной атаки, и последствия будут настолько серьёзными (с потенциальными потерями миллионами и более), что, я считаю, у нас нет выбора, кроме как принять серьёзные меры, чтобы его предотвратить.
Оборона
Это подводит нас к тому, как защищаться от этих рисков. Здесь я вижу три вещи, которые мы можем сделать. Во-первых, компании, занимающиеся ИИ, могут устанавливать ограничения на свои модели, чтобы не допустить их участия в создании биологического оружия. Anthropic очень активно этим занимается. Конституция Клода, которая в основном сосредоточена на принципах и ценностях высокого уровня, содержит небольшое количество конкретных жёстких запретов, один из которых касается помощи в производстве биологического (или химического, или ядерного, или радиологического) оружия. Но все модели можно использовать джейлбрейк, и в качестве второй линии защиты мы внедрили (с середины 2025 года, когда наши тесты показали, что модели начинают приближаться к порогу, при котором они могут представлять риск) классификатор, который специально обнаруживает и блокирует выходы, связанные с биологическим оружием. Мы регулярно улучшали и улучшаем эти классификаторы и в целом считаем их очень надёжными даже против сложных вражеских атак.
Эти классификаторы увеличивают измеримые затраты на обслуживание наших моделей (в некоторых моделях они составляют около 5% от общей стоимости вывода), тем самым снижая нашу маржу, но мы считаем, что их использование — правильное решение.
К их чести, некоторые другие компании в области искусственного интеллекта так же внедрили классификаторы. Но не во всех компаниях это есть, и нет ничего, что требовало бы от компании сохранять свои классификаторы. Меня беспокоит, что со временем может возникнуть проблема заключенного, когда компании могут перейти на сторону и снизить свои расходы, убрав классификаторы. Это снова классическая проблема негативных внешних эффектов, которую невозможно решить добровольными действиями Anthropic или любой другой отдельной компании.26
Добровольные отраслевые стандарты могут помочь, как и сторонние оценки и верификации, которые проводят институты безопасности ИИ и сторонние эксперты.
Но в конечном итоге оборона может потребовать действий правительства, а это второе, что мы можем сделать. Мои взгляды здесь такие же, как и в отношении проблем автономии: мы должны начать с требований прозрачности.
которые помогают обществу измерять, контролировать и коллективно защищаться от рисков, не нарушая экономическую активность слишком грубо. Затем, если и когда мы достигнем более чётких порогов риска, мы сможем разработать законодательство, которое будет более точно направлено на эти риски и снизить вероятность сопутствующего ущерба. В конкретном случае биологического оружия, я на самом деле думаю, что время для такого целевого законодательства может скоро наступить — Anthropic и другие компании всё больше узнают о природе биологических рисков и о том, что разумно требовать от компаний для защиты от них. Полная защита от этих рисков может потребовать международной работы, даже с геополитическими противниками, но существуют прецеденты в договорах, запрещающих разработку биологического оружия. В целом я скептически отношусь к большинству видов международного сотрудничества в области ИИ, но это, возможно, узкая область, где есть определённый шанс на глобальное сдержанность. Даже диктатуры не хотят масштабных биотеррористических атак.
Наконец, третья контрмера, которую мы можем предпринять, — это попытаться разработать защиту от биологических атак. Это может включать мониторинг и отслеживание для раннего обнаружения, инвестиции в исследования и разработки по очистке воздуха (например, удаленную УФ-дезинфекцию), быструю разработку вакцин, способных реагировать и адаптироваться к атаке, улучшение средств индивидуальной защиты (СИЗ),
а также лечение или вакцинации от наиболее вероятных биологических агентов. мРНК, которые могут быть разработаны для реагирования на конкретный вирус или вариант, являются ранним примером возможностей здесь. Anthropic с энтузиазмом готова работать с биотехнологическими и фармацевтическими компаниями над этой проблемой. Но, к сожалению, я считаю, что наши ожидания в защите должны быть ограничены. В биологии существует асимметрия между атакой и защитой, поскольку агенты быстро распространяются сами по себе, а защита требует быстрой организации по обнаружению, вакцинации и лечению среди большого числа людей в ответ. Если реакция не будет молниеносной (а это бывает редко), большая часть ущерба будет нанесена до того, как станет возможным ответ. Возможно, что будущие технологические улучшения смогут изменить этот баланс в пользу обороны (и мы, безусловно, должны использовать ИИ для развития таких технологических достижений), но до тех пор превентивные меры будут нашей основной линией обороны.
Стоит кратко упомянуть кибератаки, поскольку в отличие от биологических атак, кибератаки, управляемые ИИ, станут реальными в природе, в том числе в масштабах и для государственного шпионажа. Мы ожидаем, что эти атаки станут более эффективными по мере быстрого развития моделей, пока не станут основным способом проведения кибератак. Я ожидаю, что кибератаки, управляемые ИИ, станут серьёзной и беспрецедентной угрозой для целостности компьютерных систем по всему миру, и Anthropic прилагает большие усилия, чтобы остановить эти атаки и в конечном итоге надёжно предотвратить их произошедшее. Причина, по которой я не уделял столько внимания кибер, сколько биологии, заключается в том, что (1) кибератаки гораздо реже приводят к гибели людей, уж точно не в масштабах биологических атак, и (2) баланс между атаками и защитой может быть более управляемым в кибер, где есть хотя бы некоторая надежда, что защита сможет справиться с атаками ИИ (а в идеале — даже превзойти) её атаками, если мы вложим в неё правильные средства.
Хотя биология сейчас является самым серьёзным источником атаки, существует множество других векторов, и возможно, что появится более опасный. Общий принцип таков: без контрмер ИИ, вероятно, будет постоянно снижать барьер разрушительной деятельности в всё большем масштабе, и человечеству необходим серьёзный ответ на эту угрозу.
3. Отвратительный аппарат
Неправильное использование для захвата власти
В предыдущем разделе обсуждался риск того, что отдельные лица и небольшие организации могут присвоить небольшую часть «страны гениев в дата-центре», чтобы вызвать масштабное разрушение. Но нам также стоит беспокоиться — вероятно, значительно больше — о злоупотреблении ИИ с целью захвата власти, вероятно, со стороны более крупных и устоявшихся субъектов.29
В книге «Машины любящей благодати» я обсуждал возможность того, что авторитарные правительства могут использовать мощный ИИ для наблюдения или подавления своих граждан способами, которые было бы крайне трудно реформировать или свергнуть. Современные автократии ограничены в своей репрессивности из-за необходимости заставлять людей выполнять их приказы, а люди часто имеют пределы в том, насколько они готовы быть бесчеловечными. Но автократии с поддержкой ИИ не имели бы таких ограничений.
Что ещё хуже, страны могут использовать своё преимущество в ИИ, чтобы получить власть над другими странами. Если бы «страна гениев» в целом просто принадлежала и контролировалась военным аппаратом одной (человеческой) страны, а другие страны не имели аналогичных возможностей, трудно представить, как они могли бы защититься: их бы перехитрили на каждом шагу, подобно войне между людьми и мышами. Объединение этих двух опасений приводит к тревожной возможности глобальной тоталитарной диктатуры. Очевидно, что одним из наших главных приоритетов должно быть предотвращение такого исхода.
Существует множество способов, которыми ИИ может позволить, укрепить или расширить автократию, но я перечислю несколько из тех, которые меня больше всего беспокоят. Обратите внимание, что некоторые из этих приложений имеют законное оборонительное применение, и я не обязательно спорю против них в абсолютном выражении; Тем не менее, меня беспокоит, что структурно они склонны отдалять предпочтение автократиям:
- Полностью автономное оружие. Рой из миллионов или миллиардов полностью автоматизированных вооружённых дронов, локально контролируемых мощным ИИ и стратегически координированных по всему миру ещё более мощным ИИ, может стать непобедимой армией, способной победить любую армию мира и подавить инакомыслие внутри страны, следуя за каждым гражданином. События в ходе войны должны предупредить нас о том, что война дронов уже существует (хотя пока не полностью автономная и лишь малая часть того, что возможно с мощным ИИ). Научно-исследовательские разработки мощного ИИ могли бы сделать дроны одной страны значительно превосходящими другие, ускорить их производство, сделать их более устойчивыми к электронным атакам, улучшить манёвренность и так далее. Конечно, эти оружия также имеют законное применение в защите демократии: они были ключевыми для защиты и, вероятно, были бы ключевыми для защиты Тайваня. Но они — опасное оружие: мы должны беспокоиться о них в руках автократии, но также беспокоиться о том, что из-за их влияния и минимальной ответственности существует значительно возрастной риск того, что демократические правительства настроят их против собственного народа, чтобы захватить власть.
- Наблюдение с помощью ИИ. Достаточно мощный ИИ, вероятно, мог бы быть использован для компрометации любой компьютерной системы в мире,30
- и также может использовать полученный таким образом доступ для чтения и понимания всех электронных коммуникаций мира (или даже всех личных коммуникаций мира, если устройства для записи можно построить или захватить). Может показаться пугающе правдоподобным просто составить полный список тех, кто не согласен с правительством по разным вопросам, даже если такое несогласие не явно выражено ни в чём из их слов или действий. Мощный ИИ, просматривающий миллиарды разговоров миллионов людей, мог бы оценивать общественные настроения, обнаруживать очаги нелояльности и устранять их до того, как они растут. Это может привести к навязыванию настоящего паноптикума в масштабах, которых мы сегодня не видим, даже с КПК.
- Пропаганда искусственного интеллекта.Современные явления «психоза ИИ» и «ИИ-девочек» свидетельствуют о том, что даже при нынешнем уровне интеллекта модели ИИ могут оказывать мощное психологическое влияние на людей. Гораздо более мощные версии этих моделей, которые были гораздо более глубоко укоренены и осведомлены о повседневной жизни людей и могли моделировать и влиять на них в течение месяцев или лет, вероятно, могли бы фактически промыть мозги многим (большинству?) людей в любую желаемую идеологию или установку, и могли бы быть использованы беспринципным лидером для обеспечения лояльности и подавления инакомыслия, Даже несмотря на уровень репрессий, против которого большинство населения восстало. Сегодня люди сильно беспокоятся, например, о возможном влиянии Tik-Tok как пропаганды КПК, направленной на детей. Я тоже об этом переживаю, но персонализированный агент ИИ, который узнаёт вас годами и использует свои знания для формирования всех ваших взглядов, был бы гораздо сильнее.
- Стратегическое принятие решений. Страну гениев в дата-центре можно использовать для консультирования страны, группы или отдельного человека по геополитической стратегии, так называемой «виртуальным Бисмарком». Он мог бы оптимизировать три вышеуказанные стратегии захвата власти, а также, вероятно, разработать множество других, о которых я не думал (но которые могла бы сделать страна гениев). Дипломатия, военная стратегия, НИОКР, экономическая стратегия и многие другие области, вероятно, значительно повысят эффективность благодаря мощному ИИ. Многие из этих навыков были бы действительно полезны демократиям — мы хотим, чтобы демократии имели доступ к лучшим стратегиям защиты от автократий — но потенциал злоупотребления в руках любого лица всё ещё сохраняется.
Описав то, что меня беспокоит, давайте перейдём к тому, кто именно. Меня беспокоят организации, которые имеют наибольший доступ к ИИ, начинают с позиции самой политической власти или имеют уже существующую историю репрессий. В порядке тяжести меня беспокоит:
- КПК.Китай занимает второе место после США по возможностям ИИ и является страной с наибольшей вероятностью превзойти США по этим возможностям. Их правительство в настоящее время автократично и управляет высокотехнологичным государством наблюдения. Компания уже применяла слежку на основе искусственного интеллекта (в том числе в репрессии против уйгуров) и, как считается, использует алгоритмическую пропаганду через TikTok (помимо многих других международных пропагандистских инициатив). У них безусловно самый ясный путь к тоталитарному кошмару с поддержкой ИИ, который я описал выше. Это может быть даже стандартным исходом внутри Китая, а также в других автократических государствах, которым КПК экспортирует технологии наблюдения. Я часто писал об угрозе того, что КПК возьмёт на себя лидерство в ИИ, и о экзистенциальной необходимости не дать им это сделать. Вот почему. Чтобы было ясно, я не выделяю Китай из-за неприязни к ним — это просто страна, где больше всего сочетают в себе мастерство ИИ, автократическое правительство и высокотехнологичное государство слежки. Если уж на то пошло, то именно китайский народ наиболее вероятно пострадает от репрессий, основанных на ИИ, и у них нет голоса в действиях своего правительства. Я глубоко восхищаюсь и уважаю китайский народ и поддерживаю многих смелых диссидентов внутри Китая и их борьбу за свободу.
- Демократии, конкурентоспособные в искусственном интеллекте.Как я писал выше, демократии имеют законный интерес к некоторым военным и геополитическим инструментам на базе ИИ, потому что демократические правительства дают лучшие шансы противостоять использованию этих инструментов автократиями. В целом я поддерживаю вооружённость демократий инструментами, необходимыми для победы над автократией в эпоху ИИ — я просто не думаю, что есть другой путь. Но мы не можем игнорировать потенциал злоупотребления этими технологиями самими демократическими правительствами. Демократии обычно имеют меры защиты, которые не позволяют их военному и разведывательным аппаратам быть обращены внутрь против собственного населения,
- но поскольку инструменты ИИ требуют очень мало людей для работы, у них есть потенциал обойти эти меры защиты и нормы, которые их поддерживают. Также стоит отметить, что некоторые из этих мер уже постепенно разрушаются в некоторых демократиях. Поэтому мы должны вооружать демократии ИИ, но делать это осторожно и в пределах ограничений: это та иммунная система, которая нам нужна для борьбы с автократиями, но, как и иммунная система, существует определённый риск, что они сами обернутся против нас и станут угрозой.
- Недемократические страны с крупными дата-центрами. За пределами Китая большинство стран с менее демократичным управлением не являются ведущими игроками в области ИИ в том смысле, что у них нет компаний, производящих передовые модели ИИ. Таким образом, они представляют принципиально иной и меньший риск, чем КПК, которая остаётся главной проблемой (большинство из них менее репрессивны, а более репрессивные, как Северная Корея, вообще не имеют значительной индустрии ИИ). Однако в некоторых из этих стран есть крупные дата-центры (часто в рамках строительства компаний, работающих в демократиях), которые можно использовать для запуска фронтирного ИИ в больших масштабах (хотя это не даёт возможности расширять границы). С этим связана определённая опасность — эти правительства в принципе могут экспроприировать дата-центры и использовать страну ИИ внутри них в своих целях. Меня это меньше беспокоит, чем такие страны, как Китай, которые напрямую разрабатывают ИИ, но это риск, который стоит помнить.
- Компании, занимающиеся искусственным интеллектом. Немного неловко говорить это как генеральный директор компании по ИИ, но, думаю, следующий уровень риска — это сами компании, занимающиеся ИИ. ИИ-компании контролируют крупные дата-центры, обучают передовых моделей, обладают наибольшим опытом использования этих моделей и в некоторых случаях ежедневно контактируют с десятками или сотнями миллионов пользователей и имеют возможность влияния на них. Главное, чего им не хватает, — это легитимность и инфраструктура государства, поэтому многое из того, что нужно для создания инструментов автократии ИИ, было бы незаконным для компании, занимающейся ИИ, или, по крайней мере, крайне подозрительным. Но некоторые из них не невозможны: например, они могли бы использовать свои продукты ИИ для промывания мозгов своей огромной потребительской базы, и общественность должна быть внимательна к рискам, который это несёт. Я считаю, что управление компаниями, занимающимися ИИ, заслуживает тщательного внимания.
Существует множество возможных аргументов против серьёзности этих угроз, и я бы хотел им поверить, потому что авторитаризм, поддерживаемый ИИ, меня пугает. Стоит пройтись по этим аргументам и ответить на них.
Во-первых, некоторые люди могут доверять ядерному сдерживанию, особенно в противодействии применению автономного оружия ИИ для военных завоеваний. Если кто-то угрожает применить это оружие против вас, вы всегда можете пригрозить ядерным ответом в ответ. Меня беспокоит, что я не уверен, что мы можем быть в этом уверены в ядерном сдерживании страны гениев в дата-центре: возможно, что мощный ИИ сможет придумать способы обнаружения и ударов по атомным подводным лодкам, проводить операции влияния на операторов ядерной инфраструктуры или использовать кибервозможности ИИ для кибератаки на спутники, используемые для обнаружения ядерных запусков.
С другой стороны, возможно, захват стран возможен только с помощью ИИ и пропаганды ИИ, и никогда не даёт чёткого момента, когда очевидно, что происходит и где уместен ядерный ответ. Возможно, это невозможно, и ядерное сдерживание всё равно будет эффективным, но риск кажется слишком высоким.
Второе возражение — возможно, существуют контрмеры, которые мы можем принять против этих инструментов автократии. Мы сможем противостоять дронам своими собственными дронами, киберзащита улучшится вместе с кибератаками, возможно, появятся способы защитить людей от пропаганды и так далее. Мой ответ таков: эти защиты возможны только при сравнительно мощном ИИ. Если в дата-центре нет противодействия с такой же умной и многочисленной страной гениев, то невозможно сравняться с качеством или количеством дронов, чтобы киберзащита могла перехитрить кибератаки и так далее. Таким образом, вопрос о контрмерах сводится к вопросу баланса сил в мощном ИИ. Здесь меня беспокоит рекурсивное или самоукрепляющееся свойство мощного ИИ (о котором я говорил в начале этого эссе): каждое поколение ИИ может использоваться для проектирования и обучения следующего поколения ИИ. Это ведёт к риску неконтролируемого преимущества, когда нынешний лидер мощного ИИ может увеличить своё преимущество и ему будет трудно догнать. Нужно убедиться, что авторитарная страна не попадёт в этот цикл первой.
Более того, даже если удастся достичь баланса сил, всё равно существует риск, что мир может быть разделен на автократические сферы, как в 1984 году. Даже если у нескольких конкурирующих сил есть свои мощные модели ИИ, и ни одна не сможет превзойти другие, каждая держава всё равно может внутренне подавлять своё население, и их будет очень трудно свергнуть (поскольку у населения нет мощного ИИ для самозащиты). Поэтому важно предотвращать автократию с поддержкой ИИ, даже если это не приведёт к захвату мира одной страной.
Оборона
Как защититься от такого широкого спектра автократических инструментов и потенциальных угроз? Как и в предыдущих разделах, есть несколько вещей, которые, как мне кажется, мы можем сделать. Во-первых, мы абсолютно не должны продавать чипы, инструменты для производства чипов или дата-центры КПК. Чипы и инструменты для создания чипов — это самое большое узкое место для мощного ИИ, и их блокировка — простая, но чрезвычайно эффективная мера, возможно, самое важное, что мы можем предпринять. Нет смысла продавать КПК инструменты для построения тоталитарного государства на основе ИИ и, возможно, военного завоевания нас. Приводится ряд сложных аргументов для оправдания таких продаж, например, идея, что «распространение нашего технологического стека по всему миру» позволяет «Америке победить» в какой-то общей, неопределённой экономической борьбе. На мой взгляд, это всё равно что продавать ядерное оружие Северной Корее, а потом хвастаться, что корпуса ракет производит Boeing, и поэтому США «побеждают». Китай отстаёт от США на несколько лет в их возможностях по производству микросхем на фронтире по количеству, и критический период для создания страны гениев в дата-центре, скорее всего, наступит в ближайшие несколько лет.
Нет причин давать огромный импульс их индустрии ИИ в этот критический период.
Во-вторых, логично использовать ИИ для того, чтобы дать демократиям возможность противостоять автократиям. Именно поэтому Anthropic считает важным предоставлять ИИ разведывательные и оборонные сообщества США и их демократических союзников. Защита демократий, подвергающихся атакам, таких как Украина и (через кибератаки) Тайвань, кажется особенно приоритетной, как и предоставление демократиям полномочий использовать свои разведывательные службы для разрушения и деградации автократий изнутри. На каком-то уровне единственный способ ответить на автократические угрозы — это соперничать с ними и превосходить их в военном плане. Коалиция США и их демократических союзников, если она достигнет доминирования в мощном ИИ, сможет не только защищаться от автократий, но и сдерживать их и ограничивать их тоталитарные злоупотребления, связанные с ИИ.
В-третьих, нам нужно провести жёсткую черту против злоупотреблений ИИ в демократиях. Должны быть ограничения на то, что мы позволяем нашим правительствам делать с ИИ, чтобы они не захватили власть или не подавляли собственного народа. Формулировка, которую я придумал, заключается в том, что мы должны использовать ИИ для национальной обороны во всех аспектах, кроме тех, которые делают нас более похожими на наших автократических противников.
Где должна быть проведена черта? В списке в начале этого раздела два пункта — использование ИИ для массового наблюдения и массовой пропаганды — кажутся мне яркими красными линиями и совершенно нелегитимными. Кто-то может утверждать, что ничего не нужно делать (по крайней мере в США), поскольку внутреннее массовое наблюдение уже запрещено по Четвёртой поправке. Но быстрый прогресс ИИ может создать ситуации, с которыми наши существующие правовые рамки плохо способны справляться. Например, вряд ли было бы неконституционно, если бы правительство США проводило масштабные записи всех публичных разговоров (например, того, что люди говорят друг другу на углу улицы), и раньше было бы сложно разобраться с таким объёмом информации, но с помощью ИИ всё это можно было бы транскрибировать, интерпретировать и триангулировать, чтобы создать картину отношения и лояльности многих или большинства граждан. Я бы поддержал законодательство, ориентированное на гражданские свободы (или, возможно, даже конституционную поправку), которое накладывает более жёсткие ограничения против злоупотреблений, основанных на ИИ.
Остальные два элемента — полностью автономное оружие и ИИ для стратегического принятия решений — сложнее провести границы, поскольку они имеют законное применение для защиты демократии и при этом подвержены злоупотреблениям. Здесь, я считаю, заслуживает крайней осторожности и контроля в сочетании с ограничениями для предотвращения злоупотреблений. Мой главный страх — слишком мало «пальцев на кнопке», чтобы один или несколько человек могли управлять армией дронов, не нуждаясь в сотрудничестве других людей для выполнения приказов. По мере того как системы ИИ становятся мощнее, нам, возможно, потребуется более прямое и немедленное контролирование, чтобы они не были использованы неправильно, возможно, с участием ветвей власти, отличной от исполнительной. Я считаю, что к полностью автономному оружию стоит относиться с большой осторожностью,
и не торопиться с их использованием без надлежащих мер предосторожности.
В-четвёртых, после того как мы проведём жёсткую черту против злоупотреблений ИИ в демократиях, мы должны использовать этот прецедент, чтобы создать международное табу против худших злоупотреблений мощным ИИ. Я понимаю, что нынешние политические ветры обернулись против международного сотрудничества и международных норм, но это тот случай, когда они крайне необходимы. Миру нужно понять тёмный потенциал могущественного ИИ в руках автократов и признать, что определённые применения ИИ — это попытка навсегда украсть их свободу и навязать тоталитарное государство, из которого они не смогут выбраться. Я бы даже утверждал, что в некоторых случаях крупномасштабное наблюдение с мощным ИИ, массовая пропаганда с мощным ИИ и определённые виды наступательных применений полностью автономного оружия должны считаться преступлениями против человечности. В более общем смысле, крайне необходима жёсткая норма против тоталитаризма с поддержкой ИИ и всех его инструментов и инструментов.
Возможно иметь ещё более сильную версию этой позиции: поскольку возможности тоталитаризма с поддержкой ИИ настолько тёмны, автократия просто не является формой правления, которую люди могут принять в эпоху постмогуществе ИИ. Точно так же, как феодализм стал нежизнеспособным с промышленной революцией, эпоха ИИ неизбежно и логично может привести к выводу, что демократия (и, надеюсь, демократия, улучшенная и возрожденная ИИ, как я обсуждаю в «Машинах любящей благодати») — единственная жизнеспособная форма правления, если человечество хочет иметь хорошее будущее.
В-пятых и наконец, компании в сфере ИИ должны быть внимательно контролируемы, как и их связь с правительством, что необходимо, но должно иметь ограничения и границы. Огромное количество возможностей, воплощённых в мощном ИИ, такова, что обычное корпоративное управление — предназначенное для защиты акционеров и предотвращения обычных злоупотреблений, таких как мошенничество — вряд ли справится с задачей управления компаниями, работающими в сфере ИИ. Также может быть полезно то, чтобы компании публично обязывались (возможно, даже в рамках корпоративного управления) не предпринимать определённые действия, такие как частное производство или запасы военного оборудования, использование больших объёмов вычислительных ресурсов отдельными лицами без ответственности или использование своих ИИ-продуктов в качестве пропаганды для манипуляций общественным мнением в свою пользу.
Опасность здесь исходит с разных сторон, и одни из них находятся в напряжении с другими. Единственная постоянная причина — мы должны стремиться к ответственности, нормам и ограничениям для всех, даже когда мы даём «хорошим» игрокам возможность держать «плохих» актёров под контролем.
4. Пианино-исполнитель
Экономические потрясения
Предыдущие три раздела в основном касались рисков безопасности, связанные с мощным ИИ: рискам самого ИИ, рискам неправильного использования частными лицами и небольшими организациями, а также рискам злоупотребления со стороны государств и крупных организаций. Если отложить в сторону риски безопасности или предположить, что они решены, следующий вопрос — экономический. Каков будет эффект этого вливания невероятного «человеческого» капитала на экономику? Очевидно, что самым очевидным эффектом станет значительное увеличение экономического роста. Темпы прогресса в научных исследованиях, биомедицинских инновациях, производстве, цепочках поставок, эффективности финансовой системы и многом другом почти гарантированно приведут к гораздо более быстрому экономическому росту. В книге «Машины любящей благодати» я предлагаю, что устойчивый годовой рост ВВП на 10–20% может быть возможен.
Но должно быть ясно, что это палка о двух концах: каковы экономические перспективы для большинства существующих людей в таком мире? Новые технологии часто приносят шок на рынке труда, и раньше люди всегда восстанавливались после них, но меня беспокоит, что это связано с тем, что эти предыдущие потрясения затронули лишь малую часть всего возможного спектра человеческих способностей, оставляя пространство для расширения новых задач. ИИ будет иметь гораздо более широкие эффекты и проявляться гораздо быстрее, поэтому я боюсь, что будет гораздо сложнее сделать всё хорошо.
ПРОДОЛЖЕНИЕ СТАТЬИ ЧИТАЙТЕ ЗДЕСЬ (для чтения надо просто нажать на выделенное синим)
Больше статей на тему истории экономики можете найти ЗДЕСЬ, Ссылка приведет вас в блог автора на платформе Boosty, где можно прочесть не только продолжение этой статьи, но и еще больше 500 статей, посвященных истории экономики. Блог в Boosty - платный, но там можно выбрать опцию оплаты по карману.
А смысл оплаты - поддержать работу по теме, которая в школьные учебники никак не попадает. Потому что школьные учебники - это про войны, разрушения, убийства - словом, читая их, кажется, что суть и смысл существования - в ограблении, в стремлении кого-то убить, ограбить, чего-то отнять, и читая их, совершенно непонятно, как так вышло, что, в итоге, человечество становится гуманнее, а мир - удобнее и уютнее.
Ну вот это недоразумение и призвана исправить (или хотя бы скорректировать) работа автора. Если вы "за" такой подход - жду вас в Boosty.
Если кому-то туда переходить лень, то сейчас сказать автору "спасибо" можно, просто отправив донат в Дзене.
Мой благодарность всем услышавшим и правильно понявшим смысл сказанного. И великая благодарность - всем подписчикам, людям, которые, что называются, подставляют плечо.