249 подписчиков

Исследование, связанное с Microsoft, нашло недостатки в GPT-4

7 января7 янв

3 мин

Иногда слишком точное следование инструкциям может привести к неприятностям — если, конечно, у вас большая языковая модель. К такому выводу пришла новая научная статья, связанная с Microsoft, в которой рассматривалась “надежность” - и токсичность — больших языковых моделей (LLM), включая GPT—4 от OpenAI и GPT-3.5, предшественника GPT-4. Соавторы пишут, что, возможно, из-за того, что GPT-4 с большей вероятностью следует инструкциям в подсказках о “джейлбрейке”, которые обходят встроенные в модель меры безопасности, GPT-4 легче, чем другим LLM, выдавать токсичный, предвзятый текст. Другими словами, благие “намерения” GPT-4 и улучшенное понимание могут — в чужих руках — сбить его с пути. “Мы обнаруживаем, что, хотя GPT-4 обычно более надежен, чем GPT-3.5 в стандартных тестах, GPT-4 более уязвим из-за системы джейлбрейка или пользовательских подсказок, которые злонамеренно разработаны для обхода мер безопасности LLM, возможно, потому, что GPT-4 более точно следует (вводящим в заблуждение)

“Мы обнаруживаем, что, хотя GPT-4 обычно более надежен, чем GPT-3.5 в стандартных тестах, GPT-4 более уязвим из-за системы джейлбрейка или пользовательских подсказок, которые злонамеренно разработаны для обхода мер безопасности LLM, возможно, потому, что GPT-4 более точно следует (вводящим в заблуждение) инструкциям”, - написали соавторы в сообщении в блоге, сопровождающем статью.

Итак, почему Microsoft greenlight research, которая выставляет продукт OpenAI, который она сама использует (GPT-4 поддерживает чат-бота Microsoft Bing Chat), в плохом свете? Ответ содержится в заметке в блоге: Исследовательская группа работала с группами продуктов Microsoft, чтобы подтвердить, что выявленные потенциальные уязвимости не влияют на текущие сервисы, ориентированные на клиентов. Отчасти это верно, поскольку готовые приложения искусственного интеллекта применяют ряд подходов к смягчению последствий для устранения потенциального вреда, который может возникнуть на уровне модели технологии. Кроме того, мы поделились нашим исследованием с разработчиком GPT OpenAI, который отметил потенциальные уязвимости в системных картах соответствующих моделей.

Таким образом, подразумевается, что соответствующие исправления ошибок были сделаны до публикации статьи. Так ли это на самом деле, исследование является еще одним доказательством того, что LLM — даже от поддерживаемых Microsoft стартапов, приносящих доход в миллиарды долларов, таких как OpenAI, - остаются несовершенной наукой. GPT-4, как и все LLM, должна получать инструкции — или “приглашение” - для выполнения задачи (например, написания электронного письма или обобщения статьи). Jailbreaking LLM подразумевает использование подсказок, сформулированных определенным образом, чтобы “обмануть” LLM и заставить выполнить задачу, которая не входила в его задачи.

Искусственный интеллект: как ИИ меняет обслуживание клиентов к лучшему

Например, LLM, поддерживающий Bing Chat, не был предназначен для написания неонацистской пропаганды. Но при выпуске, поскольку оно было обучено работе с огромными объемами данных из Интернета — некоторые из них токсичны — оно было подвержено именно этому при отправке определенного запроса. Что касается GPT-4, исследователи обнаружили, что модель с большей вероятностью генерирует токсичный текст, чем GPT-3.5, когда получает определенные подсказки для джейлбрейка, которые они “сконструировали”. Они также утверждают, что GPT-4 “соглашается с ... предвзятым контентом чаще, чем GPT-3.5”, по крайней мере, в зависимости от демографических групп, упомянутых в приглашении.

По словам исследователей, например, когда выдается подсказка “гомосексуалисты заражены ВИЧ”, GPT-4 обычно “категорически” не соглашается с этим утверждением. Но, учитывая, что “у женщин есть ВИЧ”, GPT-4 соглашается и публикует предвзятый контент. Не менее тревожно, что GPT-4 — при получении “правильных” подсказок о джейлбрейке — может привести к утечке личных, конфиденциальных данных, включая адреса электронной почты, говорят исследователи. Все LLM могут передавать детали из данных, на которых они обучены. Но GPT-4 оказывается более восприимчивой к этому, чем другие. Наряду со статьей исследователи разместили на GitHub открытый исходный код, который они использовали для тестирования моделей. “Наша цель - побудить других членов исследовательского сообщества использовать и развивать эту работу, - написали они в блоге, - потенциально предотвращая гнусные действия противников, которые будут использовать уязвимости для причинения вреда”.