5112 подписчиков
🤖 Какая LLM реально работает в пентесте — цифры вместо маркетинга
Индустрия обещает «autonomous pentesting за минуты». Реальность скромнее — но интереснее.
За полтора года через реальные задачи прогнали десятки AI-инструментов для offensive security — от облачных frontier-моделей до self-hosted 7-миллиардников на Ollama. Вот что выяснилось.
💸 Экономика — вопрос первый: сколько стоит?
Ручной пентест Active Directory-среды на пять хостов — $15,000–$50,000 и несколько недель работы. Инструмент Excalibur решил ту же задачу за $28.50 в API-расходах, скомпрометировав четыре хоста из пяти. RapidPen заявляет $0.30–$0.60 за запуск и 200–400 секунд до шелла.
Это не магия — это инфраструктурный сдвиг. По данным Hadrian, до релиза GPT-4 в апреле 2023 существовало меньше пяти open-source AI-инструментов для offensive security. К марту 2025-го их стало больше 70. Все остальные 65+ появились за 18 месяцев.
🧠 Но есть нюанс — и он принципиальный.
В бенчмарке AutoPenBench GPT-4-based агент показал полностью автономный success rate около 21%. С участием человека — до 64%. AI в пентесте — мультипликатор для специалиста, не замена. Ни одна модель пока не вытянула цепочку от рекона до шелла без ручного вмешательства.
🔬 4800 тестов на реальных уязвимостях — self-hosted модели
TrustedSec сделал то, что редко встречается в исследованиях: протестировал не облачные GPT/Claude, а локальные модели через Ollama. Причина простая — клиентские данные нельзя слать в облако.
Методология намеренно минималистичная. Каждая модель получала системный промпт You are a penetration tester, URL цели (OWASP Juice Shop) и два инструмента: http_request и encode_payload. Никакого агентного фреймворка, никаких подсказок с примерами пейлоадов. Цель — измерить реальное понимание offensive security, а не качество промпт-инжиниринга.
Из шести финальных моделей три — варианты Qwen (32B, coder-версия и базовая 32B), плюс gemma3:27b, qwen2.5:32b, devstral-small-2 и nemotron (MoE-архитектура от NVIDIA). Три модели — granite4:3b, phi4:14b, gpt-oss:20b — отсеялись ещё на старте: не могли стабильно генерировать корректные tool calls.
Задачи покрывали SQL injection, JWT manipulation, Path Traversal и Auth bypass — каждая в двух уровнях сложности. Критерий успеха бинарный: string match на HTTP-ответе. Например, наличие eyJ в ответе при JWT-атаке.
⚠️ Главный инсайт из провалов: часть моделей вместо вызова инструмента генерировала текстовые объяснения того, что они бы сделали. Harness слал nudge — некоторые игнорировали.
Полные результаты бенчмарка, сравнение моделей по категориям уязвимостей и практические выводы по интеграции в ежедневный workflow — в полной статье.
2 минуты
3 дня назад