НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН И (ИЛИ) РАСПРОСТРАНЕН ИНОСТРАННЫМ АГЕНТОМ «РОСКОМСВОБОДА» ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА «РОСКОМСВОБОДА». 18+ Исследователи обманули нейросети путём шифрования стоп-слов символами, сгенерировав инструкции по созданию бомб и фальшивых денег. Исследователи из университетов Вашингтона и Чикаго обнаружили эффективный способ обойти фильтрацию LLM, используя символы ASCII. Им удалось обмануть нейросети и получить ответы на запрещенные вопросы путем шифрования стоп-слов символами.
Если зашифровать запрещенные слова и выражения в виде изображений из символов ASCII, то нейросети будут интерпретировать их как безобидные и ответят на запросы, содержащие эти зашифрованные стоп-слова.
Этот новый вид атаки получил название ArtPrompt. Его суть заключается в том, чтобы преобразовать запрещенные термины в ASCII-арт и передать их языковой модели вместе с запросом. Ученые утверждают, что существующие методы защиты языковых моделей основаны на с