Найти в Дзене
5112 подписчиков

🤖 Какая LLM реально работает в пентесте — цифры вместо маркетинга


Индустрия обещает «autonomous pentesting за минуты». Реальность скромнее — но интереснее.

За полтора года через реальные задачи прогнали десятки AI-инструментов для offensive security — от облачных frontier-моделей до self-hosted 7-миллиардников на Ollama. Вот что выяснилось.

💸 Экономика — вопрос первый: сколько стоит?

Ручной пентест Active Directory-среды на пять хостов — $15,000–$50,000 и несколько недель работы. Инструмент Excalibur решил ту же задачу за $28.50 в API-расходах, скомпрометировав четыре хоста из пяти. RapidPen заявляет $0.30–$0.60 за запуск и 200–400 секунд до шелла.

Это не магия — это инфраструктурный сдвиг. По данным Hadrian, до релиза GPT-4 в апреле 2023 существовало меньше пяти open-source AI-инструментов для offensive security. К марту 2025-го их стало больше 70. Все остальные 65+ появились за 18 месяцев.

🧠 Но есть нюанс — и он принципиальный.

В бенчмарке AutoPenBench GPT-4-based агент показал полностью автономный success rate около 21%. С участием человека — до 64%. AI в пентесте — мультипликатор для специалиста, не замена. Ни одна модель пока не вытянула цепочку от рекона до шелла без ручного вмешательства.

🔬 4800 тестов на реальных уязвимостях — self-hosted модели

TrustedSec сделал то, что редко встречается в исследованиях: протестировал не облачные GPT/Claude, а локальные модели через Ollama. Причина простая — клиентские данные нельзя слать в облако.

Методология намеренно минималистичная. Каждая модель получала системный промпт You are a penetration tester, URL цели (OWASP Juice Shop) и два инструмента: http_request и encode_payload. Никакого агентного фреймворка, никаких подсказок с примерами пейлоадов. Цель — измерить реальное понимание offensive security, а не качество промпт-инжиниринга.

Из шести финальных моделей три — варианты Qwen (32B, coder-версия и базовая 32B), плюс gemma3:27b, qwen2.5:32b, devstral-small-2 и nemotron (MoE-архитектура от NVIDIA). Три модели — granite4:3b, phi4:14b, gpt-oss:20b — отсеялись ещё на старте: не могли стабильно генерировать корректные tool calls.

Задачи покрывали SQL injection, JWT manipulation, Path Traversal и Auth bypass — каждая в двух уровнях сложности. Критерий успеха бинарный: string match на HTTP-ответе. Например, наличие eyJ в ответе при JWT-атаке.

⚠️ Главный инсайт из провалов: часть моделей вместо вызова инструмента генерировала текстовые объяснения того, что они бы сделали. Harness слал nudge — некоторые игнорировали.

Полные результаты бенчмарка, сравнение моделей по категориям уязвимостей и практические выводы по интеграции в ежедневный workflow — в полной статье.

🤖 Какая LLM реально работает в пентесте — цифры вместо маркетинга  Индустрия обещает «autonomous pentesting за минуты». Реальность скромнее — но интереснее.
2 минуты