Найти в Дзене
SecureTechTalks

🚨 GPT проигрывает классическим подходам ИБ

Разметка MITRE ATT&CK показала пределы LLM 🧠 Автоматическая разметка текстов по MITRE ATT&CK давно остаётся одной из самых востребованных задач в кибербезопасности. Каждый день аналитики читают отчёты, threat intelligence, сценарии атак и описания уязвимостей, связывая их с тактиками и техниками противника. Это монотонная, дорогая и плохо масштабируемая работа. Не удивительно, что попытки её автоматизировать ведутся уже больше десяти лет. 📄 В январе 2026 года команда JPMorgan Chase опубликовала техническую работу, которая пытаеся решить проблему в новом ключе. Авторы напрямую сравнили GPT-4o и классический машинный подход, SGD-классификатор на TF-IDF. 👉 Arxiv ⚙️ Эксперимент был предельно прагматичным. Моделям давали отдельные предложения из threat intelligence и просили определить соответствующую тактику MITRE ATT&CK.  Классическая модель показала около 82% точности, GPT-4o остановился примерно на 59%. Разница особенно заметна в редких тактиках и в ситуациях, где требуется стро

🚨 GPT проигрывает классическим подходам ИБ

Разметка MITRE ATT&CK показала пределы LLM

🧠 Автоматическая разметка текстов по MITRE

ATT&CK давно остаётся одной из самых востребованных задач в кибербезопасности. Каждый день аналитики читают отчёты, threat intelligence, сценарии атак и описания уязвимостей, связывая их с тактиками и техниками противника. Это монотонная, дорогая и плохо масштабируемая работа. Не удивительно, что попытки её автоматизировать ведутся уже больше десяти лет.

📄 В январе 2026 года команда JPMorgan Chase опубликовала техническую работу, которая пытаеся решить проблему в новом ключе. Авторы напрямую сравнили GPT-4o и классический машинный подход, SGD-классификатор на TF-IDF.

👉 Arxiv

⚙️ Эксперимент был предельно прагматичным. Моделям давали отдельные предложения из threat intelligence и просили определить соответствующую тактику MITRE ATT&CK. 

Классическая модель показала около 82% точности, GPT-4o остановился примерно на 59%. Разница особенно заметна в редких тактиках и в ситуациях, где требуется строгое соответствие идентификаторам и терминологии ATT&CK.

🧩 Как авторы посмотрели на задачу.

«Разметка MITRE» не один шаг, а целый спектр задач разной сложности. В реальности один текст может соответствовать сразу нескольким тактикам, а каждая тактика нескольким техникам, связанным иерархически. Такая структура зачастую теряется в автоматизации.

🏗️ Решение JPMorgan построено снизу вверх и повторяет логику мышления аналитика. Текст разбивается на предложения, каждое предложение превращается в TF-IDF-вектор, после чего на первом уровне модель предсказывает несколько наиболее вероятных тактик. На втором уровне для каждой тактики используются отдельные модели, определяющие подходящие техники. В результате получается иерархическая мульти-лейбл разметка вида «тактика → техника», а не плоский список тегов.

📊 Этот подход даёт ощутимый прирост качества. При выборе трёх наиболее вероятных тактик точность на уровне тактик достигает около 94%, а при иерархической классификации техник примерно 82%. Важно и то, что система не допускает логических ошибок, когда техника предсказана без соответствующей ей тактики.

🔐 Отдельного внимания заслуживает инженерная деталь: авторы добавили хеширование признаков на этапе векторизации. Это позволяет защищать чувствительные данные и почти не влияет на качество модели. Благодаря этому решения можно безопасно распространять.

🧭 В итоге работа формулирует спокойный, но важный вывод. Ограничения автоматизации MITRE ATT&CK связаны не с тем, насколько «умна» модель, а с тем, насколько точно мы формализуем задачу. Иерархия, мульти-лейблы, строгие таксономии и объяснимость здесь важнее универсальной генерации текста.

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #CyberSecurity #MITREATTACK #ThreatIntelligence #MachineLearning #LLM #SOC #AIinSecurity #BlueTeam #InfoSec