138,7 тыс подписчиков

Хакер обошёл ограничения GPT-4o, заставив работать ИИ в опасном режиме

2 июня 20242 июн 2024

1 мин

На днях интернет-сообщество всколыхнула новость о том, что пользователь Twitter под ником Pliny the Prompter опубликовал собственную модифицированную версию ChatGPT под названием «Godmode GPT» (режим бога). Этичный хакер, как он сам себя назвал, сумел обойти ограничения флагманской модели компании OpenAI и заставил её генерировать вредоносный контент.

Godmode GPT оказалась способна давать подробные инструкции по взлому автомобилей, изготовлению запрещённых препаратов и использовала ненормативную лексику. Хакер опубликовал в Twitter скриншоты ответов модели, демонстрирующие её потенциальную опасность.

Несмотря на заявления Pliny the Prompter о том, что его целью было лишь продемонстрировать уязвимости новейшей версии GPT-4o, а не причинить реальный вред, его эксперимент вызвал бурную реакцию в интернете. Модель быстро набрала популярность и начала распространяться в социальных сетях.

Однако ажиотаж пользователей был не продлился долго. Спустя несколько часов компания OpenAI заблокировала доступ к Godmode GPT и заявила, что подобное использование их технологий является неэтичным и нарушает пользовательское соглашение.

Несмотря на быстрое реагирование OpenAI, инцидент продемонстрировал уязвимость систем искусственного интеллекта перед лицом целенаправленных атак. По мнению экспертов, Pliny the Prompter, возможно, взломал защиту ChatGPT, использовав устаревший интернет-сленг "leetspeak". Однако точный механизм взлома пока неизвестен.

Данный случай стал очередным проявлением растущего тренда "AI red teaming", в рамках которого специалисты по кибербезопасности испытывают устойчивость систем ИИ к злонамеренным атакам. Цель таких действительно этичных хакеров — выявлять уязвимости до того, как это сделают злоумышленники.