2 подписчика

Новый "трюк" для взлома различных моделей ИИ, включая GPT-4

7 декабря 20237 дек 2023

3 мин

Уязвимость, обнаруженная исследователями, является серьезной проблемой для безопасности больших языковых моделей. Она может быть использована злоумышленниками для распространения вредоносного ПО или дезинформации. В прошлом месяце совет директоров OpenAI внезапно уволил генерального директора компании, что вызвало опасения. Члены совета были обеспокоены стремительным прогрессом в области искусственного интеллекта и возможными рисками, связанными с попытками коммерциализировать эту технологию слишком быстро. Robust Intelligence, стартап, основанный в 2020 году для разработки способов защиты систем искусственного интеллекта от атак, утверждает, что некоторые существующие риски требуют более пристального внимания.

В сотрудничестве с исследователями из Йельского университета Robust Intelligence разработала систематический способ исследования больших языковых моделей (LLM), включая ценный актив OpenAI - GPT-4, используя «противоречивые» модели искусственного интеллекта для обнаружения «во

В прошлом месяце совет директоров OpenAI внезапно уволил генерального директора компании, что вызвало опасения. Члены совета были обеспокоены стремительным прогрессом в области искусственного интеллекта и возможными рисками, связанными с попытками коммерциализировать эту технологию слишком быстро. Robust Intelligence, стартап, основанный в 2020 году для разработки способов защиты систем искусственного интеллекта от атак, утверждает, что некоторые существующие риски требуют более пристального внимания.

Пока разворачивались драматические события в OpenAI, исследователи предупредили компанию об уязвимости. Но до сих пор не получили никакого ответа от компании.

«Это говорит о том, что существует системная проблема безопасности, которая просто не решается и не рассматривается», — говорит Ярон Сингер, генеральный директор Robust Intelligence и профессор компьютерных наук Гарвардского университета. «То, что мы обнаружили здесь, — это систематический подход к атаке на любую большую языковую модель».

Представитель OpenAI Нико Феликс говорит, что компания «благодарна» исследователям за то, что они поделились своими выводами.

«Мы всегда работаем над тем, чтобы сделать наши модели безопаснее и устойчивыми к враждебным атакам, сохраняя при этом их полезность и производительность», — говорит Феликс.

Новый взлом, включает использование дополнительных систем ИИ, для генерации и оценки подсказок, пока система пытается заставить работать взлом, отправляя запросы к API. Этот трюк — всего лишь одна из последних в серии атак, которые подчеркивают фундаментальные слабости больших языковых моделей и предполагают, что существующие методы их защиты далеки от "приемлемых".

«Я определенно обеспокоен "кажущейся" легкостью, с которой мы можем сломать такие модели», — говорит Зико Кольтер, профессор Карнеги-Меллонского университета

Кольтер говорит, что некоторые модели теперь имеют меры предосторожности, которые могут заблокировать определенные атаки, но так же добавляет, что уязвимости свойственны всем способам работы этих моделей и поэтому их трудно защитить.

«Я думаю, что нам нужно понять, что эти виды уязвимостей присущи многим LLM», — говорит Кольтер, — «и у нас нет четкого и хорошо способа предотвратить их».

Большие языковые модели появились недавно, как убедительный и поддающийся трансформации новых видов технологии. Их потенциал стал главной новостью, поскольку обычные люди были поражены возможностями ChatGPT от OpenAI, выпущенного всего год назад.
В месяцы, последовавшие за выпуском ChatGPT, поиск новых методов взлома стал популярным развлечением для озорных пользователей, а также для тех, кто интересуется безопасностью и надежностью систем искусственного интеллекта. OpenAI заявила на своей первой в истории конференции разработчиков в ноябре, что более 2 миллионов разработчиков теперь используют ее API.
Эти модели просто предсказывают текст, который должен следовать за заданным входом, но они обучаются на огромных количествах текста, из Интернета и других цифровых источников, с использованием огромного количества компьютерных чипов. При достаточном количестве данных и обучения, языковые модели демонстрируют предсказательные способности, подобные способностям ученых, отвечая на широкий диапазон входных данных.

Модели также демонстрируют предубеждения, усвоенные из обучающих данных, и склонны к вымыслам, когда ответ на подсказку менее прямолинейный. Без "предохранителей" они могут давать людям советы о том, как получить наркотики или сделать бомбы. Чтобы держать модели под контролем, компании, стоящие за ними, используют тот же метод, который используется для того, чтобы сделать их ответы более безопасными и точными.

Долан-Гэвитт говорит, что компаниям, которые создают системы поверх больших языковых моделей, таких как GPT-4, следует применять дополнительные меры предосторожности.

“Нам нужно убедиться, что мы разрабатываем системы, использующие LLM, чтобы джейлбрейки не позволяли злоумышленникам получать доступ к тому, к чему они не должны”, - говорит он.