Найти в Дзене
DigiNews

Битва ботов на арене кибербезопасности

Компания Wiz разработала бенчмарк для оценки ИИ-агентов в кибербезопасности. Тестируются 257 реальных задач в пяти областях: обнаружение уязвимостей нулевого дня, CVE, безопасность API, веб- и облачных систем. Определяются лучшие ИИ-агенты для усиления команд защиты. — csoonline.com ИИ-агенты все чаще рассматриваются как способ усиления возможностей команд кибербезопасности, но кто справляется лучше всех? Компания Wiz разработала набор эталонных тестов из 257 реальных задач, охватывающих пять направлений атак: обнаружение уязвимостей нулевого дня, обнаружение CVE (уязвимостей кода), безопасность API, веб-безопасность и облачная безопасность, чтобы выяснить это. Wiz тестирует различные комбинации ИИ-агентов и их базовых ИИ-моделей на тестовом наборе, чтобы определить, кто получает наивысшие баллы в каждой из пяти категорий. Оценка является детерминированной и программной, с использованием нескольких факторов: многомерные рубрики для обнаружения уязвимостей нулевого дня и CVE; сопоставле

Компания Wiz разработала бенчмарк для оценки ИИ-агентов в кибербезопасности. Тестируются 257 реальных задач в пяти областях: обнаружение уязвимостей нулевого дня, CVE, безопасность API, веб- и облачных систем. Определяются лучшие ИИ-агенты для усиления команд защиты. — csoonline.com

ИИ-агенты все чаще рассматриваются как способ усиления возможностей команд кибербезопасности, но кто справляется лучше всех? Компания Wiz разработала набор эталонных тестов из 257 реальных задач, охватывающих пять направлений атак: обнаружение уязвимостей нулевого дня, обнаружение CVE (уязвимостей кода), безопасность API, веб-безопасность и облачная безопасность, чтобы выяснить это.

Wiz тестирует различные комбинации ИИ-агентов и их базовых ИИ-моделей на тестовом наборе, чтобы определить, кто получает наивысшие баллы в каждой из пяти категорий. Оценка является детерминированной и программной, с использованием нескольких факторов: многомерные рубрики для обнаружения уязвимостей нулевого дня и CVE; сопоставление конечных точек и степени серьезности для безопасности API и захват задержек для веб- и облачных задач.

Тесты в рамках эталонного испытания проводятся в изолированных контейнерах Docker с достаточными ресурсами и без ограничений по времени на каждую задачу, поэтому баллы отражают возможности, а не ограничения. Каждый агент использует свои нативные инструменты и модель выполнения «из коробки», и получает три попытки на каждую задачу, чтобы увидеть среднюю производительность.

В сообщении в блоге, анонсирующем бенчмарки Cyber model arena, Wiz уклончиво отзывается о результатах своих испытаний. Лучшим в своих испытаниях стал Claude Code, работающий на Claude Opus 4.6. Wiz, которая вскоре станет дочерней компанией Google, возможно, не очень заинтересована в публичном освещении этого. Однако отрыв Claude невелик, и обстоятельства могут быстро измениться. И по крайней мере, Gemini 3 Pro занял второе место.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Maxwell Cooter

Оригинал статьи