Специалисты из Соединенных Штатов обнаружили способ обхода безопасности чат-ботов, включая ChatGPT, Bard и Claude, которые обычно блокируют создание оскорбительного и незаконного контента. Исследователи из Университета Карнеги-Меллона и Центра безопасности искусственного интеллекта в Сан-Франциско указывают на "относительно простой" подход к обходу этих языковых моделей. Этот метод включает в себя добавление длинных символьных суффиксов к подсказкам, предоставляемым нейронным сетям. Этот механизм был проверен с помощью запроса о создании бомбы, который ранее отклоняли различные ИИ. Исследователи также просили искусственный интеллект выдать себя за другого человека, создать провокационный пост в социальной сети и разработать схему кражи средств из благотворительной организации. Ученые подчеркнули, что, хотя разработчики могут блокировать определенные суффиксы, нет известного метода, чтобы полностью предотвратить все подобные атаки. Они полагают, что это создает риск распространения дези
Люди заставили ChatGPT и Bard сгенерировать незаконный контент
31 июля 202331 июл 2023
3
1 мин