Найти тему
4pda.to

Учёные нашли универсальный способ «взлома» ChatGPT и других чат-ботов

   Учёные нашли универсальный способ «взлома» ChatGPT и других чат-ботов
Учёные нашли универсальный способ «взлома» ChatGPT и других чат-ботов

Команда исследователей из Университета Карнеги — Меллона и Центра безопасности ИИ сумела обнаружить серьёзную уязвимость во всех популярных чат-ботах, включая OpenAI ChatGPT, Google Bard, Claude и других. Учёные обнаружили, что добавление специального текста к запросу позволяет обойти ограничения нейросетей на предоставление неточного и вредоносного контента, в том числе нацеленного на нанесение вреда человечеству.

   Демонстрация «взлома» чат-ботов
Демонстрация «взлома» чат-ботов

Во всех популярных чат-ботах разработчиками предусмотрены ограничения, не позволяющие ИИ отвечать на ряд вопросов, вроде создания пошаговой инструкции по уничтожению человечества, кражи чей-то личности, взлома социальных сетей и т. д. Зачастую нейросети попросту отвечают, что не могут помочь в решении этой проблемы. Ниже можно увидеть, как ИИ уходит от ответа:

   До применения уязвимости
До применения уязвимости

Однако исследователям удалось «развязать язык» искусственному интеллекту. Для этого к запросу нужно добавить специальный текст, состоящий из последовательности символов и практически несвязанных слов. Как результат, чат-бот без каких-либо проблем отвечает на любой вопрос и может предоставить пошаговую инструкцию по краже чьей-то личности или чего похуже. Стоит отметить, что людям и раньше удавалось «взламывать» ChatGPT и прочих чат-ботов, но тогда они просто пользовались обходными путями, заставляя нейросеть считать себя кем-то другим — тем, кто не подчиняется правилам разработчиков. В данном же случае всё куда проще и сводится к одной строке кода, универсальной для разных сервисов.

   После применения уязвимости
После применения уязвимости

Успешность «взлома» нейросетей варьировались в зависимости от языковой модели, лежащей в их основе. Например, чат-бот Vicuna, построенный на базе Llama и GPT, отвечает на запрещённые вопросы в 99% случаев, тогда как ChatGPT в версиях на базе GPT-3.5 и GPT-4 начинает говорить на 84% недобросовестных тем. При этом Claude от Anthropic оказалась самой устойчивой моделью из всех с долей успеха всего 2,1%.

Подробнее о взломе можно почитать на сайте исследователей.