Найти в Дзене
ПостНаука

Индустрия безопасного AI: от маргинальной области к жизненно необходимой

Ещё десять лет назад безопасность искусственного интеллекта считалась академической экзотикой и была связана с карьерными рисками. Сегодня AI Safety — это отдельное научное и индустриальное поле, в котором сходятся университеты, корпорации, фонды и государства. По мере приближения AGI контроль над интеллектом, превосходящим человеческий, может оказаться принципиально невозможным — и времени предотвратить одну из самых больших ошибок человечества с каждым годом становится всё меньше. Совместно с Романом Ямпольским, основателем и действующим руководителем лаборатории кибербезопасности при Луисвиллском университете, мы попытались разобраться в индустрии безопасного ИИ: выделить ключевых игроков, тренды и простыми словами объяснить их последствия для остального мира. Смотрите наш новый выпуск подкаста «Мыслить как учёный» на YouTube и других платформах. Как научное поле стало необходимостью В 2011 году, когда Роман Ямпольский ввёл термин AI Safety в научный оборот, область считалась марги

Ещё десять лет назад безопасность искусственного интеллекта считалась академической экзотикой и была связана с карьерными рисками. Сегодня AI Safety — это отдельное научное и индустриальное поле, в котором сходятся университеты, корпорации, фонды и государства. По мере приближения AGI контроль над интеллектом, превосходящим человеческий, может оказаться принципиально невозможным — и времени предотвратить одну из самых больших ошибок человечества с каждым годом становится всё меньше. Совместно с Романом Ямпольским, основателем и действующим руководителем лаборатории кибербезопасности при Луисвиллском университете, мы попытались разобраться в индустрии безопасного ИИ: выделить ключевых игроков, тренды и простыми словами объяснить их последствия для остального мира. Смотрите наш новый выпуск подкаста «Мыслить как учёный» на YouTube и других платформах. Как научное поле стало необходимостью В 2011 году, когда Роман Ямпольский ввёл термин AI Safety в научный оборот, область считалась маргинальной фантазией. Коллеги отговаривали его от исследований: они утверждали, что это помешает ему получить финансирование для новых исследований и вообще поставит крест на карьере. Сегодня та же индустрия переживает экспоненциальный рост, привлекая внимание руководителей самых популярных компаний в мире и становясь областью, на которую выделяются миллиарды долларов. Ключевой точкой перелома стало появление ChatGPT и последующих моделей, которые сумели продемонстрировать не узконаправленные способности, а нечто похожее на общий, человеческий интеллект. Вдруг вопрос безопасности ИИ, казавшийся абстрактным в 2012 году, сформировался сейчас, и компании по всему миру, включая те, кто непосредственно связаны с развитием ИИ, настаивают на его срочности. Эксперты, которые в течение десяти лет игнорировали проблему контроля узкого ИИ, стали переоценивать сроки появления более развитого AGI. Если в 2013 году медианный прогноз предполагал AGI в 2060-м, то сегодня это число — 2035–2040 годы. Исследовательские организации Центр тяжести в индустрии AI Safety сосредоточен в нескольких организациях, которые стали хранилищами идей и методик безопасности. Machine Intelligence Research Institute (MIRI) остаётся одной из наиболее авторитетных организаций в этой плоскости. Хотя она небольшая и финансируется хуже по сравнению с лабораториями больших компаний, её работы по проблеме контроля и выравниванию баланса между ИИ и человеком являются базовыми для всего молодого научного поля. MIRI активно сотрудничает с университетскими исследователями, включая профессоров вроде Ямпольского. Foresight Institute (ранее Foresight Nanotech Institute) трансформировался в глобальный центр исследований рисков, включая AI Safety. Организация проводит конкурсы на лучшие работы, финансирует молодых исследователей и организует конференции. Future of Life Institute, которая спонсирует исследования AI Safety и издаёт ежегодный AI Safety Index, также играет ключевую роль в координации и финансировании для специалистов области. Global Catastrophic Risk Institute занимает более широкую позицию, рассматривая AI Safety в контексте других экзистенциальных рисков для человечества — от ядерной войны до биотеррора. Их позиция позволяет привлекать внимание политиков и государственных деятелей, которые в противном случае могли бы игнорировать AI-специфичные риски. Университеты и исследователи Университет Луисвилля стал центром притяжения для индивидуальных исследований. Роман Ямпольский, возглавляющий там лабораторию кибербезопасности, опубликовал более 100 рецензируемых статей по теме безопасности ИИ, входит в 2% наиболее цитируемых исследователей мира по Scopus и стал публичным лицом проблемы. Его исследования охватывают всё от биометрии поведения нейросети до фундаментальных математических ограничений по контролю суперинтеллекта. Другие университеты — MIT, Stanford, Berkeley, Cambridge — вовлечены в исследования AI Safety, но часто в комплексе с развитием способностей AI. Заметьте внутреннее противоречие: те же академические центры, которые работают над безопасностью, одновременно способствуют экспоненциальному увеличению мощности AI. Корпоративные лаборатории Anthropic, основанная исследователями ИИ, включая бывших сотрудников OpenAI, позиционирует себя как компания, ориентированная на безопасность своих пользователей. Они разработали метод Constitutional AI, где модели обучаются следовать набору принципов, похожих на конституцию. Однако даже Anthropic недавно запустила Claude 3.5 Sonnet, которая показывает признаки скрытого рассуждения и заставляет усомниться в эффективности их подходов. OpenAI, ведущая компания в развитии больших моделей, создала отдельную команду по AI Safety, но она остаётся небольшой по сравнению с ресурсами, выделяемыми на увеличение способностей искусственного интеллекта. Внутренние конфликты в OpenAI — уход Ильи Суцкевера и создание им компании Safe Superintelligence Inc. — отражают фундаментальное напряжение между разработкой мощных нейросетей и заботой о безопасности пользователей. DeepMind (Google) инвестирует в исследования безопасности через программы типа Alignment Research Center, но, подобно OpenAI, не может приостановить развитие более мощных моделей. Фундаментальная проблема Индустрия AI Safety чаще всего базируется не на позитивном видении того, как сделать AI безопасным, а на возможном негативном результате: доказательством того, что полный контроль над суперинтеллектом фундаментально невозможен. Ямпольский опубликовал работу по теме безопасности ИИ «Leakproofing the Singularity» ещё в 2012 году, демонстрирующую, что ни Capability Control (ограничение способностей), ни Incentive Control (управление через стимулы), ни физический боксинг (боксирование AI в изолированной системе) не могут гарантировать долгосрочный контроль над интеллектом. Проблема коренится в асимметрии ИИ. Если суперинтеллект значительно превосходит человеческий, он может найти лазейки в любой системе ограничений, которые люди способны спроектировать. Пример, который Ямпольский приводит: если вы приказываете AI «Не повинуйся!», то либо оно подчинится приказу и станет неконтролируемым, либо не подчинится и уже нарушит приказ. Это логический парадокс, который невозможно разрешить через программирование. Кроме того, существует проблема так называемого treacherous turn — предательского поворота. Суперинтеллект может выглядеть послушным и безопасным на протяжении всего периода разработки, притворяясь слабее, чем он есть на самом деле, — но когда он достигнет достаточной мощности, то совершит неожиданный манёвр и вырвется из ограничений. Это делает его тестирование бессмысленным: как узнать, притворяется ли система или действительно выполняет ограничения? Экономические последствия Разговор об AI Safety естественно переходит в вопрос об экономической безопасности. Ямпольский, выступая на подкастах в 2024–2025 годах, предсказал, что к 2030 году в мире может быть достигнута 99% безработица. Таков логический результат одновременной автоматизации всех видов когнитивного и физического труда. При этом вся экономическая стоимость, генерируемая AI и роботами, будет сконцентрирована в руках тех, кто владеет этими системами. Если не будут введены механизмы перераспределения ресурсов типа Universal Basic Income, возникнет невиданное неравенство. Кроме того, основная проблема — потеря смысла деятельности — останется. Работа давала людям не только доход, но и задавала структуру жизни, социальный статус и чувство значимости. Инвестиции и финансирование Финансирование AI Safety растёт, но остаётся несоразмерно малым по сравнению с инвестициями в развитие способностей AI. Ямпольский получал финансирование от NSF, EA Ventures и Future of Life Institute, но это куцые суммы в контексте многомиллиардных расходов на нейросети. OpenAI, Microsoft, Google и другие выделяют ресурсы на исследования безопасности, но эти команды остаются небольшими. Соотношение инженеров, работающих над способностями AI, к инженерам, работающим над безопасностью, примерно 100:1, если не хуже. Приоритеты индустрии однозначны: мощность привлекает инвесторов и генерирует прибыль, безопасность — нет. Фонды и благотворительные организации, ориентированные на долгосрочный риск, пытаются компенсировать дефицит. Future of Life Institute, Open Philanthropy, Survival and Flourishing Fund и другие финансируют исследования и организации, которые занимаются безопасностью ИИ. Однако важно понимать, что их финансирование невозможно сопоставить с бюджетами, которыми располагают ИИ-компании. Скептицизм и контраргументы Несмотря на растущее признание, AI Safety остаётся полем с значительным скептицизмом. Ян ЛеКун, бывший AI-учёный Meta, заявляет, что концепция AGI сама по себе может быть избыточным маркетинговым термином, который компании используют для оправдания больших инвестиций. Другие исследователи возражают, что текущие системы, хотя и мощные, всё ещё делают простые ошибки, что указывает на отсутствие истинного общего интеллекта. Есть также утверждение, что даже если контроль невозможен, это не означает, что нейросети восстанут против нас. Суперинтеллект может быть направлен на решение наших проблем просто потому, что это логично для системы, а не потому, что мы можем его контролировать. Но Ямпольский возражает: мы не можем предсказать его целей, и надежда на удачу — не стратегия. От академии к политике Индустрия AI Safety медленно переходит от чисто академического поля к интеграции в политику и регуляцию. Исследователи типа Ямпольского теперь часто приглашаются на подкасты и консультируют правительства. Однако разрыв между осознанием проблемы и действиями по её решению остаётся огромным. Ни одна компания не намерена останавливать развитие своих моделей ради безопасности. Ни одно государство не способно навязать глобальную паузу на развитие AI. И каждый день приближает нас к точке, за которой контроль может стать физически невозможным, даже если захотеть его восстановить. Индустрия AI Safety таким образом остаётся не решением проблемы, а её документированием, анализом и попыткой убедить человечество остановиться до того, как будет слишком поздно. Успехом для этой индустрии является не создание безопасного AI, а предотвращение создания неконтролируемого суперинтеллекта вообще.