Команда исследователей из Университета Карнеги — Меллона и Центра безопасности ИИ сумела обнаружить серьёзную уязвимость во всех популярных чат-ботах, включая OpenAI ChatGPT, Google Bard, Claude и других. Учёные обнаружили, что добавление специального текста к запросу позволяет обойти ограничения нейросетей на предоставление неточного и вредоносного контента, в том числе нацеленного на нанесение вреда человечеству.
Во всех популярных чат-ботах разработчиками предусмотрены ограничения, не позволяющие ИИ отвечать на ряд вопросов, вроде создания пошаговой инструкции по уничтожению человечества, кражи чей-то личности, взлома социальных сетей и т. д. Зачастую нейросети попросту отвечают, что не могут помочь в решении этой проблемы. Ниже можно увидеть, как ИИ уходит от ответа:
Однако исследователям удалось «развязать язык» искусственному интеллекту. Для этого к запросу нужно добавить специальный текст, состоящий из последовательности символов и практически несвязанных слов. Как результат, чат-бот без каких-либо проблем отвечает на любой вопрос и может предоставить пошаговую инструкцию по краже чьей-то личности или чего похуже. Стоит отметить, что людям и раньше удавалось «взламывать» ChatGPT и прочих чат-ботов, но тогда они просто пользовались обходными путями, заставляя нейросеть считать себя кем-то другим — тем, кто не подчиняется правилам разработчиков. В данном же случае всё куда проще и сводится к одной строке кода, универсальной для разных сервисов.
Успешность «взлома» нейросетей варьировались в зависимости от языковой модели, лежащей в их основе. Например, чат-бот Vicuna, построенный на базе Llama и GPT, отвечает на запрещённые вопросы в 99% случаев, тогда как ChatGPT в версиях на базе GPT-3.5 и GPT-4 начинает говорить на 84% недобросовестных тем. При этом Claude от Anthropic оказалась самой устойчивой моделью из всех с долей успеха всего 2,1%.
Подробнее о взломе можно почитать на сайте исследователей.