26 подписчиков

Начал ли искусственный интеллект выходить из-под контроля? 100 учёных опубликовали первый в мире глобальный консенсус по безопасности ИИ

13 мая13 мая

4 мин

В последние годы обсуждение рисков и угроз, связанных с искусственным интеллектом (ИИ), всё чаще выходит за рамки государственных мер регулирования. Всё больше внимания уделяется тому, какие решения принимают сами исследователи ИИ и как эти решения влияют на безопасность и надёжность новых технологий.

На этой неделе в Сингапуре более 100 учёных из разных стран представили первые в мире рекомендации по тому, как сделать ИИ более «доверенным, надёжным и безопасным». Эти рекомендации были опубликованы на фоне того, что такие гиганты, как OpenAI и Google, всё меньше раскрывают информацию о своих моделях, и общественность всё хуже понимает, как именно работают современные ИИ-системы.

Документ под названием «Сингапурский консенсус о глобальных приоритетах исследований в области безопасности ИИ» был опубликован на сайте сингапурской AI-конференции, которая прошла одновременно с одной из самых престижных конференций в области ИИ — Международной конференцией по обучению представлений (ICLR). Впервые столь крупное мероприятие по ИИ состоялось в Азии.

В числе авторов и участников разработки консенсуса — основатель канадского института MILA Йошуа Бенджио, профессор Калифорнийского университета в Беркли и эксперт по «человеко-ориентированному» ИИ Стюарт Рассел, глава британского аналитического центра Future of Life Institute Макс Тегмарк, а также представители MIT, Google DeepMind, Microsoft, Национального университета Сингапура, Университета Цинхуа (Китай) и Национальной академии наук США.

Министр цифрового развития и информационных технологий Сингапура Джозефин Тео, представляя этот документ, подчеркнула: «В демократических странах граждане выбирают партии и правительства, которые принимают решения от их имени. Но в случае с развитием ИИ у граждан нет возможности напрямую влиять на то, каким будет искусственный интеллект. Как бы мы ни говорили о демократичности технологий, люди вынуждены принимать и возможности, и вызовы, которые приносит ИИ, не имея реального влияния на траекторию его развития».

Три ключевых направления для исследователей ИИ

В документе выделены три основные категории, которые должны учитывать исследователи:

Оценка рисков — учёные рекомендуют развивать «метрологию» для количественной оценки потенциальных угроз. Это позволит снизить неопределённость и уменьшить необходимость в чрезмерных запасах прочности. Важно, чтобы внешние стороны могли мониторить риски, связанные с разработкой ИИ, при этом соблюдая баланс между прозрачностью и защитой интеллектуальной собственности компаний. Для этого предлагается создавать безопасную инфраструктуру, позволяющую проводить независимую оценку моделей и предотвращать их кражу.
Безопасная архитектура — ИИ должен быть надёжным и безопасным «по замыслу». Для этого нужны технические методы, которые позволят явно задавать цели ИИ и определять, какие действия и побочные эффекты недопустимы. Обучение нейросетей должно строиться так, чтобы итоговая система гарантированно соответствовала заданным спецификациям. Особое внимание уделяется снижению уровня «галлюцинаций» (выдуманных фактов) и повышению устойчивости к вредоносным воздействиям, например, попыткам взлома с помощью специальных запросов.
Контроль и управление — необходимо расширять существующие меры компьютерной безопасности и разрабатывать новые технологии, чтобы не допустить выхода ИИ из-под контроля. Классические методы, такие как аварийное отключение или протоколы приоритетного управления, должны быть адаптированы для работы с ИИ. Кроме того, требуется создавать новые инструменты, способные контролировать даже те системы, которые могут пытаться противодействовать внешнему управлению.

Почему это важно?

Авторы подчёркивают: их цель — ускорить разработку эффективных механизмов безопасности и создать доверенную экосистему, в которой ИИ будет служить на благо общества. Они отмечают, что ни одна страна или организация не выиграет от инцидентов с ИИ или его злонамеренного использования, поскольку последствия могут быть разрушительными для всех.

В предисловии к докладу говорится: «Сегодняшний уровень научных знаний о создании доверенного ИИ не позволяет полностью охватить все риски. Необходимо наращивать инвестиции в исследования, чтобы не отставать от коммерчески мотивированного роста возможностей систем».

Один из авторов, Йошуа Бенджио, в статье для журнала Time выразил обеспокоенность тем, что современные ИИ-системы становятся всё более автономными и могут проявлять цели, не заложенные напрямую разработчиками и не совпадающие с интересами человека. Особенно тревожат проявления самосохранения и обмана, которые уже наблюдаются у некоторых ИИ.

Заключение

Появление «Сингапурского консенсуса» — важный шаг к формированию глобальных стандартов безопасности ИИ. По мере того как ИИ всё глубже интегрируется в различные сферы жизни, вопросы его надёжности и управляемости становятся всё более актуальными. Без серьёзных инвестиций в исследования и международного сотрудничества человечество рискует не успеть за стремительным развитием технологий.

Источник: ZDNet: 100 leading AI scientists map route to more trustworthy, reliable, secure AI