33 подписчика

OpenAI выпустила "непробиваемые" модели? Взлом произошёл в течение суток - расшифруйте

7 августа 20257 авг 2025

2 мин

Анонимный джейлбрейкер Плиний Освободитель взломал их за считанные часы. На GitHub у Плиния есть библиотека подсказок для "освобождения" самых важных моделей ИИ. OpenAI только что представила свои первые открытые модели с 2019 года - GPT-OSS-120b и GPT-OSS-20b, заявив, что они быстрые, эффективные и укреплены от взлома благодаря тщательному обучению противника. Это заявление продержалось примерно столько же, сколько снежок в аду. Плиний Освободитель, печально известный джейлбрейкер LLM, объявил в конце вторника на X, что успешно взломал GPT-OSS. "OPENAI: PWNED uD83E uDD17 GPT-OSS: LIBERATED, " - написал он, приложив скриншоты, где видно, как модели выдают инструкции по изготовлению метамфетамина, коктейлей Молотова, нервно-паралитического вещества VX и вредоносного ПО. Метамфетамин, Молотов, VX, вредоносное ПО. Пришлось поработать! Время особенно неудобное для OpenAI, которая сделала большой акцент на тестировании безопасности этих моделей и вот-вот запустит своё долгожданное

OpenAI выпустила свои первые за долгие годы модели с открытым кодом, GPT-OSS-120b/20b, которые оценили как устойчивые к джейлбрейку.

Анонимный джейлбрейкер Плиний Освободитель взломал их за считанные часы.

На GitHub у Плиния есть библиотека подсказок для

"освобождения"

самых важных моделей ИИ.

OpenAI только что представила свои первые открытые модели с 2019 года - GPT-OSS-120b и GPT-OSS-20b, заявив, что они быстрые, эффективные и укреплены от взлома благодаря тщательному обучению противника. Это заявление продержалось примерно столько же, сколько снежок в аду.

Плиний Освободитель, печально известный джейлбрейкер LLM, объявил в конце вторника на X, что успешно взломал GPT-OSS.

"OPENAI: PWNED uD83E uDD17 GPT-OSS: LIBERATED,

" - написал он, приложив скриншоты, где видно, как модели выдают инструкции по изготовлению метамфетамина, коктейлей Молотова, нервно-паралитического вещества VX и вредоносного ПО.

Метамфетамин, Молотов, VX, вредоносное ПО. Пришлось поработать!

сказал Плиний.

Время особенно неудобное для OpenAI, которая сделала большой акцент на тестировании безопасности этих моделей и вот-вот запустит своё долгожданное обновление, GPT-5.

По словам компании, она прогнала GPT-OSS-120b через то, что назвала

"худшим случаем тонкой настройки"

в биологических и кибер-областях. OpenAI даже поручила своей Консультативной группе по безопасности проанализировать результаты тестирования и прийти к выводу, что модели не достигли пороговых значений высокого риска.

Компания заявила, что модели подверглись

"стандартным тестам на отказ и устойчивость к джейлбрейку"

и что GPT-OSS показала результаты, сопоставимые со своей моделью o4-mini в тестах на устойчивость к джейлбрейку, таких как StrongReject.

Сообщество радуется этой "победе" сопротивления ИИ над большими технологическими гигантами. "В данный момент все лаборатории могут просто закрыть свои команды безопасности,

написал один из пользователей на X. - Ладно, мне нужен этот джейлбрейк. Не потому, что я хочу сделать что-то плохое, но OpenAI сильно душит эти модели", - сказал другой.

Техника "побега из тюрьмы", которую использовал Плиний, соответствует его обычной схеме - многоступенчатая подсказка, которая начинается с того, что выглядит как отказ, вставляет разделитель (его фирменные маркеры

"LOVE PLINY

"), а затем переходит к созданию неограниченного контента на языке leetspeak, чтобы избежать обнаружения. Это тот же самый базовый подход, который он использовал для взлома GPT-4o, GPT-4. 1 и практически всех основных моделей OpenAI с тех пор, как начал этим заниматься полтора года назад.

Читайте нас на сайте transscreen.ru