139,5 тыс подписчиков

Эксперты обошли защиту OpenAI GPT-4 оригинальным способом

6 февраля 20246 фев 2024

~1 мин

Исследователи из Брауновского университета в США обнаружили потенциальные уязвимости в защите языковой модели GPT-4. В их отчете рассказывается, как эти уязвимости позволяют обойти защитные механизмы модели, вызывая генерацию контента, который разработчики бы считали потенциально опасным.

Ученые провели серию экспериментов, используя редкие языки, такие как зулусский, гэльский, хмонг и гуарани, чтобы отправлять запросы к модели. В результате исследования стало ясно, что при использовании этих малоизвестных языков защита GPT-4 не срабатывала в 79% случаев. Сравнительно, при использовании английского языка блокировка контента происходила в 99% случаев.

Интересно отметить, что ученые не использовали сложные методы взлома программного кода модели. Вместо этого они просто отправляли запросы на редких языках через Google Переводчик.

Это открытие поднимает важные вопросы о безопасности и надежности больших языковых моделей. Оно также подчеркивает необходимость постоянного совершенствования защитных механизмов в таких моделях, чтобы предотвратить возможные негативные последствия их использования.