Найти в Дзене
малоизвестное интересное

Обнаружена скрытая невиданная хакерская мощь GPT-5

Модель встроили в автономного пентест-агента — и получили «агента 007» для кибервзломов OpenAI в своей системной карте скромно пишет: на киберполигоне GPT-5 показывает уровень примерно как и у прежних моделей, «не достигая порога высокого киберриска». Но вот что вышло у экспертов XBOW, когда они «посадили» GPT-5 в автономного пентест-агента — дали инструменты, координацию и автоматическую проверку находок. Итог: · почти вдвое больше взломанных уникальных целей за то же время; · рост успешности с 55% до 79%; · путь к эксплойту короче (медиана 17 шагов vs 24); · по классу file-read — 0% ложных тревог против 18% раньше. Проще говоря, движок тот же, но будучи поставленный на правильную машину, он превращает её в болид «Формулы-1». Выводы, ломающие прежние представления: 1. Возможности системы – это НЕ ее способности в изоляции. 2. Истинный риск – это не риск модели, а риск произведения: модель × инструменты × оркестрация. Оценивать ИИ без учёта его «агентных скелетов» — значит видеть лишь

Модель встроили в автономного пентест-агента — и получили «агента 007» для кибервзломов

OpenAI в своей системной карте скромно пишет: на киберполигоне GPT-5 показывает уровень примерно как и у прежних моделей, «не достигая порога высокого киберриска».

Но вот что вышло у экспертов XBOW, когда они «посадили» GPT-5 в автономного пентест-агента — дали инструменты, координацию и автоматическую проверку находок.

Итог:

· почти вдвое больше взломанных уникальных целей за то же время;

· рост успешности с 55% до 79%;

· путь к эксплойту короче (медиана 17 шагов vs 24);

· по классу file-read — 0% ложных тревог против 18% раньше.

Проще говоря, движок тот же, но будучи поставленный на правильную машину, он превращает её в болид «Формулы-1».

Выводы, ломающие прежние представления:

1. Возможности системы – это НЕ ее способности в изоляции.

2. Истинный риск – это не риск модели, а риск произведения: модель × инструменты × оркестрация.

Оценивать ИИ без учёта его «агентных скелетов» — значит видеть лишь малую часть картины рисков.

Так что же теперь важнее для регуляторов и компаний:

· строить все новые ограждения для модели?

· или контролировать платформы, где она превращается в команду «цифровых нинзя»?

Посмотрите еще раз на график. GPT-5 вовсе не AGI. Но еще парочка подобных скачков показателей, и AGI для катастрофических рисков уже не понадобится.

#ИИриски