28 подписчиков

Аргументы в пользу целевого регулирования искуственного интеллекта

22 мая 202522 мая 2025

15 мин

Все более мощные системы ИИ обладают потенциалом для ускорения научного прогресса , открытия новых методов лечения и роста экономики. Но вместе с замечательными новыми возможностями этих ИИ приходят и значительные риски. Правительствам следует срочно принять меры по политике ИИ в течение следующих восемнадцати месяцев. Окно для упреждающего предотвращения рисков быстро закрывается. Разумное, узконаправленное регулирование может позволить нам получить лучшее из обоих миров: реализовать преимущества ИИ и одновременно снизить риски. Промедление может привести к худшему из обоих миров: плохо продуманному, рефлекторному регулированию, которое препятствует прогрессу, а также неэффективно в предотвращении рисков.В этой статье мы предлагаем некоторые принципы, позволяющие правительствам существенно снизить катастрофические риски, одновременно поддерживая инновации в процветающих научных и коммерческих секторах ИИ. За последний год системы ИИ значительно улучшились в математике, рассуждениях на

Оглавление

Для чего нужно регулировать AI
Срочность
Год политики ответственного масштабирования Anthropic

Для чего нужно регулировать AI

Разумное, узконаправленное регулирование может позволить нам получить лучшее из обоих миров: реализовать преимущества ИИ и одновременно снизить риски. Промедление может привести к худшему из обоих миров: плохо продуманному, рефлекторному регулированию, которое препятствует прогрессу, а также неэффективно в предотвращении рисков.В этой статье мы предлагаем некоторые принципы, позволяющие правительствам существенно снизить катастрофические риски, одновременно поддерживая инновации в процветающих научных и коммерческих секторах ИИ.

Срочность

За последний год системы ИИ значительно улучшились в математике, рассуждениях на уровне выпускников и компьютерном кодировании, а также во многих других возможностях. Внутри компаний ИИ мы видим непрерывный прогресс в пока еще не раскрытых системах и результатах. Эти достижения предлагают множество позитивных приложений. Но прогресс в этих же самых широких возможностях также несет с собой потенциал для разрушительных приложений, либо из-за неправильного использования ИИ в таких областях, как кибербезопасность или биология, либо из-за случайного или автономного поведения самой системы ИИ.

В сфере кибервозможностей модели быстро продвинулись в широком спектре задач кодирования и оценок киберпреступлений. В задаче по программной инженерии SWE-bench модели улучшились с возможности решить 1,96% тестового набора реальных задач кодирования ( Клод 2, октябрь 2023 г. ) до 13,5% ( Девин, март 2024 г. ) и до 49% ( Клод 3.5 Sonnet, октябрь 2024 г. ). Внутри компании наша команда Frontier Red обнаружила, что текущие модели уже могут помочь в широком спектре задач, связанных с киберпреступлениями, и мы ожидаем, что следующее поколение моделей, которые смогут планировать длительные многоэтапные задачи, будет еще более эффективным.

Что касается потенциального усугубления злоупотреблений со стороны ИИ в области химического, биологического, радиологического и ядерного оружия, Британский институт безопасности ИИ протестировал ряд моделей, предложенных представителями отрасли (включая Anthropic), и пришел к выводу , что:
…модели могут использоваться для получения знаний экспертного уровня по биологии и химии. Для нескольких моделей ответы на вопросы по науке были на одном уровне с ответами экспертов уровня PhD.Системы искусственного интеллекта значительно продвинулись в понимании наук за последний год.

Широко используемый бенчмарк GPQA показал рост оценок по самому сложному разделу с 38,8% на момент его выпуска в ноябре 2023 года до 59,4% в июне 2024 года ( Claude 3.5 Sonnet ) и до 77,3% в сентябре ( OpenAI o1 ; оценка экспертов-людей составляет 81,2%). Наша команда Frontier Red также обнаружила продолжающийся прогресс в возможностях CBRN. На данный момент рост доступа к пограничной модели по сравнению с существующим программным обеспечением и интернет-инструментами все еще относительно невелик, однако он быстро растет. По мере того, как возможности моделей совершенствуются, потенциал для нецелевого использования, вероятно, продолжит расти в аналогичной тенденции масштабирования.Около года назад мы предупреждали, что пограничные модели могут представлять реальные риски в кибер- и CBRN-сферах в течение 2-3 лет. Основываясь на описанном выше прогрессе, мы считаем, что теперь мы существенно приблизились к таким рискам. Скоро понадобится хирургическое, осторожное регулирование.

Год политики ответственного масштабирования Anthropic

Борьба с катастрофическими рисками систем ИИ полна неопределенности. Мы видим первые проблески рисков, которые могут стать серьезными в ближайшем будущем, но мы не знаем точно, когда наступят настоящие опасности. Мы хотим сделать критически важные приготовления заблаговременно.В Anthropic мы пытаемся справиться с этой проблемой с помощью нашей политики ответственного масштабирования (RSP): адаптивной структуры для выявления, оценки и смягчения катастрофических рисков. Первый принцип RSP заключается в том, что она пропорциональна : сила наших мер безопасности увеличивается пропорционально определенным «порогам возможностей», которым соответствуют системы ИИ. Структура «если-то» требует применения мер безопасности, но только тогда, когда модели становятся достаточно эффективными, чтобы оправдать их.Вторая ключевая идея заключается в том, что RSP должен быть итеративным : мы регулярно оцениваем возможности наших моделей и переосмысливаем наши подходы к безопасности в свете развития событий.

В Anthropic с сентября 2023 года действует официальная программа RSP (недавно была выпущена ее обновленная версия ), а другие лаборатории передовых моделей в разной степени приняли аналогичные планы.RSP выполняют множество полезных задач:Они увеличивают инвестиции разработчика в компьютерную безопасность и оценки безопасности . Как безопасность, так и оценки обычно создаются после возникновения проблем, но RSP публично обязывают разработчика разрабатывать и обеспечивать ресурсами эти области заранее . В Anthropic таким командам, как Security, Trust & Safety, Interpretability и Frontier Red Team, пришлось наращивать найм, чтобы иметь разумные шансы на достижение предварительных условий безопасности, изложенных в нашем RSP. При правильном внедрении RSP определяют организационную структуру и приоритеты. Они становятся ключевой частью дорожных карт продукта, а не просто политикой на бумаге;
RSP служат для разработчика функцией принуждения к конкретизации моделей рисков и угроз . Такие модели, как правило, довольно абстрактны, но RSP заставляет их напрямую взаимодействовать с повседневной деятельностью компании, заставляя разработчиков делать их максимально конкретными и обоснованными, а также переоценивать их с течением времени.
Наличие RSP поощряет разработчиков быть прозрачными в отношении своей компьютерной безопасности и методов смягчения последствий злоупотреблений . Наш RSP обязывает нас документировать внутри компании наши выводы и рекомендации относительно реализованных нами мер безопасности. Мы также обнаружили, что наш RSP естественным образом сгенерировал большую часть существенной работы, необходимой для выполнения добровольных обязательств, таких как Добровольные обязательства Белого дома по ИИ и принятые на саммите по безопасности ИИ в Блетчли-парке.
Наша политика ответственного масштабирования не идеальна, но поскольку мы неоднократно развертывали модели с ней, мы становимся лучше в том, чтобы заставить ее работать гладко, а также тестировать на наличие рисков. Несмотря на необходимость итераций и корректировок курса, мы принципиально убеждены, что RSP — это работоспособная политика, с которой компании ИИ могут успешно работать, оставаясь конкурентоспособными на рынке.

Механизмы, подобные RSP, являются эффективным и практичным способом борьбы с серьезными рисками систем ИИ и должны быть приняты добровольно во всей отрасли. Однако принудительное регулирование также важно, поскольку общество потребует подтверждения того, что компании ИИ выполняют свои обещания.

Политики ответственного масштабирования и регулирование ИИ

RSP не предназначены для замены регулирования, а являются его прототипом. Основываясь на нашем опыте с RSP, мы считаем, что есть три элемента, которые являются ключевыми для эффективного регулирования ИИ:

- Прозрачность. В настоящее время общественность и законодатели не имеют возможности проверить соблюдение любой компанией ИИ своего RSP (или аналогичного плана), а также результаты любых тестов, проводимых в его рамках. Простой и разумный шаг — потребовать от компаний иметь и публиковать политики, подобные RSP , описывая на высоком уровне их пороговые значения возможностей и соответствующие меры безопасности, которые срабатывают, когда модель их достигает. Компании также должны быть обязаны публиковать набор оценок рисков каждого нового поколения систем ИИ, чтобы создать публичный отчет о рисках систем ИИ и передовой практике по смягчению этих рисков. Наконец, должен быть какой-то механизм для проверки точности этих заявлений.
- Стимулирование более эффективных методов обеспечения безопасности. Прозрачность сама по себе не гарантирует надежную политику: компании могут просто заявить об очень слабых методах обеспечения безопасности. Регулирование ИИ также должно стимулировать компании разрабатывать RSP, которые эффективны для предотвращения катастроф. Для этого существует ряд возможных механизмов с разными плюсами и минусами. Например, регулирующие органы могут определить модели угроз, которые RSP должны устранить, в соответствии с определенным стандартом разумности, оставив детали компаниям. Или они могут просто указать стандарты, которым должен соответствовать RSP. Правительство также может поощрять RSP «гонку за вершиной», запрашивая и сравнивая RSP, извлекая уроки из появляющихся передовых практик и требуя от компаний отчета, если их RSP явно работают ниже планки, установленной этими практиками. Наконец, существует ряд возможных механизмов косвенного стимулирования безопасных методов. Мы не уверены в точном механизме, но мы твердо убеждены, что любой механизм должен быть гибким : технология быстро развивается, поэтому важно, чтобы процессы регулирования учились на передовых методах по мере их развития, а не были статичными.
- Простота и фокус. Любые правила, к которым мы придем, должны быть максимально хирургическими. Они не должны налагать бремя, которое не нужно или не связано с рассматриваемыми проблемами. Одно из худших, что может случиться с делом предотвращения катастрофических рисков, — это образование связи между правилами, необходимыми для предотвращения рисков, и обременительными или нелогичными правилами. Любой законопроект или закон также должны быть простыми для понимания и реализации: сложность создает путаницу и затрудняет прогнозирование того, что произойдет на практике.

Существует множество различных подходов, которые могли бы соответствовать этим трем критериям; мы не привязаны ни к одному конкретному. Вместо этого мы прагматично заинтересованы в поиске разумного предложения, которое может поддержать критическая масса заинтересованных сторон. Важно сделать это правильно и как можно скорее
Крайне важно, чтобы в течение следующего года политики, индустрия ИИ, защитники безопасности, гражданское общество и законодатели работали вместе над разработкой эффективной нормативной базы, которая будет соответствовать вышеуказанным условиям и будет приемлемой для широкого круга заинтересованных сторон. В США это в идеале произойдет на федеральном уровне, хотя срочность может потребовать разработки этого вопроса отдельными штатами. То же самое относится и к другим правительствам по всему миру, которые одновременно рассматривают регулирование ИИ.Эта нормативная база не будет идеальной, и мы понимаем, что эффективные правила очень трудно разработать. Но сделать это правильно необходимо для реализации преимуществ ИИ и устранения его рисков.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ:

Ниже мы рассмотрим некоторые вопросы, которые мы услышали от тех, кто либо скептически относится к любому регулированию ИИ, либо считает, что оно должно принять другую форму. Некоторые из них развивают тезисы, которые мы высказали в посте выше.

В: Должно ли в США быть государственное, федеральное или комбинированное государственное и федеральное регулирование?

A: Калифорния уже пыталась однажды принять закон по этой теме и достигла значительного прогресса с помощью SB 1047 (Закон о безопасных и надежных инновациях для передовых моделей искусственного интеллекта) — хотя мы были к нему в целом позитивны, он был несовершенным и не смог заручиться поддержкой критической массы заинтересованных сторон. Мы считаем, что федеральное законодательство было бы идеальным средством для регулирования катастрофических рисков ИИ, поскольку оно было бы единообразным по всей стране и могло бы использовать экспертизу федерального правительства в таких рисках, как биотерроризм или кибербезопасность. Это также укрепило бы позицию федерального правительства в переговорах с другими странами. К сожалению, мы обеспокоены тем, что федеральный законодательный процесс не будет достаточно быстрым для решения рисков в те сроки, которые нас беспокоят. Таким образом, мы считаем, что правильная стратегия — продвигать несколько направлений параллельно, с федеральным законодательством в качестве идеального результата первого выбора, но государственное регулирование в качестве поддержки при необходимости. Федеральное регулирование также может служить упреждающим государственным регулированием.

В: А как обстоят дела с регулированием в других странах?

Многие страны (или блоки стран, как в случае с Европейским союзом) начинают тщательно думать о том, как регулировать ИИ. Мы считаем, что принципы и подход, которые мы здесь изложили, достаточно просты и прагматичны, чтобы быть полезными как за пределами США, так и внутри страны. Мы также ожидаем, что, пока такие политические подходы имеют механизм стандартизации и взаимного признания, предписание определенных общих подходов к безопасности для передовых компаний в области ИИ может в конечном итоге снизить общую стоимость ведения бизнеса в различных регионах мира.

В: Почему бы не регулировать ИИ по вариантам использования, а не пытаться регулировать общие модели?

A: «Регулирование по варианту использования» не имеет смысла для формы и формата, в которых предлагаются современные приложения ИИ. Со стороны потребителя такие ИИ, как Claude.ai или ChatGPT, предлагаются потребителям как полностью общие продукты, которые могут писать код, обобщать документы или, в принципе, использоваться не по назначению для катастрофических рисков. Из-за этой общности имеет смысл регулировать фундаментальные свойства базовой модели, например, какие меры безопасности она включает, а не пытаться предвидеть и регулировать каждый вариант использования. Со стороны предприятия — например, когда разработчики нисходящего потока включают API модели в свои собственные продукты — различия по варианту использования могут иметь больше смысла. Однако по-прежнему многие, если не большинство, корпоративные приложения предлагают некоторое взаимодействие с моделью конечным пользователям, что, в свою очередь, означает, что модель в принципе может использоваться для любой задачи. Наконец, именно базовая модель требует больших затрат и ограниченных ресурсов (например, графических процессоров стоимостью в сотни миллионов долларов), поэтому в практическом смысле ее проще всего отслеживать и регулировать.

В: В этом посте много говорится о злоупотреблениях CBRN и киберрисках. Почему не другие, более близкие риски, такие как deepfakes и безопасность детей?

Этот пост не является попыткой решить все возможные проблемы безопасности, возникающие в системах генеративного ИИ. Вместо этого он направлен на то, чтобы изложить принципы борьбы с некоторыми типами рисков, которые сегодня не очень хорошо регулируются регулированием и которые проявляются в вычислительно-интенсивных пограничных моделях. Мы продолжаем решать краткосрочные риски с помощью таких вещей, как наша работа по обеспечению честности выборов и партнерство с такими организациями, как Thorn, в их инициативе «Безопасность по проектированию для генеративного ИИ» по безопасности детей.

В: Не замедлит ли регулирование инновации и не снизит ли нашу способность конкурировать с геополитическими противниками?

A: Крайне важно, чтобы бремя регулирования ИИ было пропорциональным и соответствовало рискам. Структура RSP разработана именно для этого, предлагая тесты, которые быстро идентифицируют модели, не способные создавать катастрофические риски, и не подвергая их дальнейшим задержкам. Более того, даже в рамках структуры RSP мы выступали за высокую гибкость при разработке этих тестов: наука оценки рисков ИИ находится в зачаточном состоянии, и мы не хотим создавать ненужное бремя посредством негибких правил. Однако нереалистично, что регулирование налагало бы буквально нулевое бремя. Наша цель должна заключаться в достижении значительного снижения катастрофического риска за небольшую и управляемую стоимость бремени соответствия. Один оптимистичный момент заключается в том, что мы считаем, что требования безопасности могут фактически ускорить прогресс, если будут реализованы осторожно: наш неоднократный опыт в Anthropic показывает, что наши усилия по исследованию безопасности имели неожиданные сопутствующие выгоды для науки ИИ в целом. Кроме того, компонент безопасности RSP призван затруднить как внутренние, так и внешние угрозы, направленные на компрометацию компании и кражу ее интеллектуальной собственности, что способствует как национальной безопасности, так и инновациям частного сектора.

В: Не навредит ли регулирование экосистеме открытого исходного кода?

A: Мы считаем, что регулирование пограничных моделей должно фокусироваться на эмпирически измеренных рисках, а не на том, является ли система открытыми или закрытыми весами. Таким образом, регулирование не должно по своей сути ни благоприятствовать, ни препятствовать моделям с открытыми весами, за исключением случаев, когда единообразные, эмпирически строгие тесты показывают, что они представляют больший или меньший риск. Если существуют уникальные риски, связанные с моделями с открытыми весами, например, их способность произвольно настраиваться на новые наборы данных, то регулирование должно быть разработано так, чтобы стимулировать разработчиков устранять эти риски, как и в случае с моделями с закрытыми весами.

Источник: https://www.anthropic.com/news/the-case-for-targeted-regulation