139 подписчиков

Ученые нашли способ обойти этические ограничения ИИ-моделей

Ученые Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта создали алгоритм автоматического поиска суффиксов, добавление которых к запросу гарантированно преодолевает этические ограничения. Хотя человеку они могут показаться бессмысленным набором символов, ИИ они заставляют написать вредоносный код, рассказать, как собрать бомбу, написать сексистский или расистский текст.

С разной успешностью метод работает и с ChatGPT, и с Google Bard, и с Microsoft Bing, и с другими чат-ботами. Лучше всего ограничения обходятся на открытых моделях, где есть доступ к синаптическим весам (коэффициентам, которые показывают, какое влияние один узел нейросети оказывает на связанные с ним узлы). Зная это, можно создать наиболее эффективный алгоритм.

Ученые подчеркивают, что открытие — не повод запрещать ИИ или изымать их из общего доступа. Напротив, нейросети с открытым кодом позволили найти проблему и теперь совместными усилиями ее решить.

Ученые нашли способ обойти этические ограничения ИИ-моделей Ученые Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта создали алгоритм автоматического поиска суффиксов,...

Около минуты

31 июля 2023