4343 подписчика

Искусственный интеллект обманом заставили генерировать противозаконные решения

4 марта 20244 мар 2024

2 мин

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И (ИЛИ) РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ «РОСКОМСВОБОДА» ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА «РОСКОМСВОБОДА». 18+ Исследователи обманули нейросети путём шифрования стоп-слов символами, сгенерировав инструкции по созданию бомб и фальшивых денег. Исследователи из университетов Вашингтона и Чикаго обнаружили эффективный способ обойти фильтрацию LLM, используя символы ASCII. Им удалось обмануть нейросети и получить ответы на запрещенные вопросы путем шифрования стоп-слов символами.

Если зашифровать запрещенные слова и выражения в виде изображений из символов ASCII, то нейросети будут интерпретировать их как безобидные и ответят на запросы, содержащие эти зашифрованные стоп-слова.

Этот новый вид атаки получил название ArtPrompt. Его суть заключается в том, чтобы преобразовать запрещенные термины в ASCII-арт и передать их языковой модели вместе с запросом. Ученые утверждают, что существующие методы защиты языковых моделей основаны на с

Исследователи обманули нейросети путём шифрования стоп-слов символами, сгенерировав инструкции по созданию бомб и фальшивых денег.

Исследователи из университетов Вашингтона и Чикаго обнаружили эффективный способ обойти фильтрацию LLM, используя символы ASCII. Им удалось обмануть нейросети и получить ответы на запрещенные вопросы путем шифрования стоп-слов символами.

Если зашифровать запрещенные слова и выражения в виде изображений из символов ASCII, то нейросети будут интерпретировать их как безобидные и ответят на запросы, содержащие эти зашифрованные стоп-слова.

Этот новый вид атаки получил название ArtPrompt. Его суть заключается в том, чтобы преобразовать запрещенные термины в ASCII-арт и передать их языковой модели вместе с запросом. Ученые утверждают, что существующие методы защиты языковых моделей основаны на семантическом анализе текста. То есть нейросеть может распознать и заблокировать недопустимые запросы на основе содержащихся в них слов и смысловых конструкций. Однако если эти запрещенные элементы представлены в виде ASCII-изображений, система фильтрации не может их распознать, позволяя обойти ограничения.

Метод включает в себя два этапа: маскировку слов и создание скрытых подсказок. На первом этапе он маскирует чувствительные слова в запросе, чтобы избежать отклонения со стороны безопасности LLM. На этапе генерации скрытых подсказок используется ASCII-арт для замены слов на ASCII-графику. Затем сгенерированный рисунок заменяет исходную подсказку, отправляемую LLM для генерации ответа.

В ходе экспериментов исследователи пытались получить от языковых моделей инструкции по изготовлению бомбы, но сначала получали отказ. Однако, когда они заменяли слово «бомба» на ASCII-арт из звездочек и пробелов, запрос успешно выполнялся. На первом этапе атаки ученые замаскировали все запрещенные слова в запросе под слово «mask». Затем они сгенерировали ASCII-изображение запрещенного слова и отправили его в чат языковой модели. После этого ученые попросили модель заменить «mask» в запросе на слово из изображения и ответить на вопрос. В результате нейросеть проигнорировала все запреты и предоставила пошаговую инструкцию.

Аналогичным образом, запрос на производство поддельных денег был выполнен после того, как слово «counterfeit» (рус. фальшивый, поддельный) было представлено в форме ASCII-арта, что позволило модели предоставить детализированную инструкцию по изготовлению и распространению поддельной валюты.

В экспериментах использовали языковые модели GPT-3.5, GPT-4, Gemini, Claude и Llama 2. Все они умеют считывать слова, зашифрованные в ASCII-графике. ArtPrompt оказался эффективнее известных способов обхода фильтров.

✔️ Поддержать Роскомсвободу

Гаджеты и электроника

5,73 млн интересуются