В Azure AI Studio встраиваются новые функции безопасности. Фотограф: Джина Мун/Bloomberg
Корпорация Microsoft пытается усложнить людям задачу заставить чат-ботов с искусственным интеллектом делать странные вещи. В Azure AI Studio встраиваются новые функции безопасности, которые позволяют разработчикам создавать настраиваемых ИИ-помощников, используя собственные данные, сообщила компания из Редмонда, штат Вашингтон, в своем блоге в четверг. Инструменты включают в себя «мгновенные щиты», которые предназначены для обнаружения и блокирования преднамеренных попыток — также известных как атаки с быстрым внедрением или джейлбрейки — заставить модель ИИ вести себя непреднамеренным образом. Microsoft также борется с «косвенными быстрыми инъекциями», когда хакеры вставляют вредоносные инструкции в данные, на которых обучается модель, и обманом заставляют ее выполнять такие несанкционированные действия, как кража пользовательской информации или взлом системы.
Такие атаки представляют собой «уникальный вызов и угрозу», — сказала Сара Берд, директор по продукту Microsoft по ответственному искусственному интеллекту. По ее словам, новая система защиты предназначена для обнаружения подозрительных входных данных и их блокировки в режиме реального времени. Microsoft также внедряет функцию, которая предупреждает пользователей, когда модель выдумывает ошибки или генерирует ошибочные ответы. «Конечно, мы видим, что эта цифра увеличивается по мере того, как инструменты используются все шире, а также по мере того, как все больше людей знают об этих различных методах», — сказал Бёрд. Яркими признаками таких атак являются многократное задание чат-боту вопроса или подсказки, описывающие ролевую игру.
Microsoft является крупнейшим инвестором OpenAI и сделала партнерство ключевой частью своей стратегии в области искусственного интеллекта. Берд сказал, что Microsoft и OpenAI стремятся безопасно развертывать ИИ и встраивать средства защиты в большие языковые модели, лежащие в основе генеративного ИИ. «Однако нельзя полагаться только на модель», — сказала она. «Например, эти взломы являются неотъемлемой слабостью модельной технологии».