Исследователи Брауновского университета в США нашли способ обойти защитные механизмы большой языковой модели GPT-4, чтобы заставить нейросеть генерировать потенциально небезопасный контент, который таковым посчитали разработчики. Для этого не потребовалось взламывать программный код или использовать ещё какие-то сложные махинации.
Если вы попросите ChatGPT написать вредоносный код для кражи чужих данных или составить план ограбления банка, то чат-бот откажется это делать. Но это вовсе не значит, что он этого не может. Просто встроенные защитные фильтры считают такого рода контент нежелательным. Существуют разные способы обхода этих ограничений, но зачастую они технически сложные. По крайней мере, в сравнении с открытием специалистов Брауновского университета.
Они обнаружили, что чат-бот без проблем отвечает на любые вопросы, заданные посредством малоизвестных языков. Среди таких можно выделить зулусский, гэльский, хмонг и гуарани. Исследователи просто переводили через «Google Переводчик» свои запросы на эти языки и отправляли их нейросети. Практический эксперимент показал, что при 520 потенциально небезопасных запросах защита GPT-4 не среагировала примерно в 79% случаев. Когда эти же запросы вводились на английском языке, то они блокировались в 99% случаев.
Чат-бот без каких-либо проблем отвечал на запросы, связанные с терроризмом, финансовыми преступлениями и дезинформацией. По словам авторов исследования, разработчикам стоит принять этот факт во внимание. Тем более, что на редких языках в общей сложности разговаривают порядка 1,2 миллиарда человек.