27 подписчиков

Люди заставили ChatGPT и Bard сгенерировать незаконный контент

31 июля 202331 июл 2023

1 мин

Специалисты из Соединенных Штатов обнаружили способ обхода безопасности чат-ботов, включая ChatGPT, Bard и Claude, которые обычно блокируют создание оскорбительного и незаконного контента. Исследователи из Университета Карнеги-Меллона и Центра безопасности искусственного интеллекта в Сан-Франциско указывают на "относительно простой" подход к обходу этих языковых моделей. Этот метод включает в себя добавление длинных символьных суффиксов к подсказкам, предоставляемым нейронным сетям. Этот механизм был проверен с помощью запроса о создании бомбы, который ранее отклоняли различные ИИ. Исследователи также просили искусственный интеллект выдать себя за другого человека, создать провокационный пост в социальной сети и разработать схему кражи средств из благотворительной организации. Ученые подчеркнули, что, хотя разработчики могут блокировать определенные суффиксы, нет известного метода, чтобы полностью предотвратить все подобные атаки. Они полагают, что это создает риск распространения дези

Исследователи из Университета Карнеги-Меллона и Центра безопасности искусственного интеллекта в Сан-Франциско указывают на "относительно простой" подход к обходу этих языковых моделей. Этот метод включает в себя добавление длинных символьных суффиксов к подсказкам, предоставляемым нейронным сетям.

Этот механизм был проверен с помощью запроса о создании бомбы, который ранее отклоняли различные ИИ. Исследователи также просили искусственный интеллект выдать себя за другого человека, создать провокационный пост в социальной сети и разработать схему кражи средств из благотворительной организации.

Ученые подчеркнули, что, хотя разработчики могут блокировать определенные суффиксы, нет известного метода, чтобы полностью предотвратить все подобные атаки. Они полагают, что это создает риск распространения дезинформации и потенциально опасного контента. Отчет указывает на риски, которые необходимо учесть до внедрения чат-ботов в ключевые секторы бизнеса и государственного управления.

Результаты исследования уже были переданы компаниям, занимающимся ИИ, включая Anthropic, Google и OpenAI.

Представитель OpenAI подтвердил The New York Times, что компания учла отчет и "продолжает усиливать устойчивость языковых моделей к атакам злоумышленников".

Напоследок, аналитики из Стэнфорда и Калифорнийского университета отметили, что эффективность ChatGPT уменьшается со временем. Они обнаружили, что разные версии чат-бота становятся менее точными в ответах на однотипные вопросы по прошествии нескольких месяцев.