21 подписчик

🔐 LLM проверили в условиях, приближённых к SOC

3 дня назад3 дня назад

1 мин

Моделям предложили самостоятельно искать атаки. 28 апреля вышел новый бенчмарк от Simbian, один из первых, где языковые модели тестируют не на знание терминов, а на способность работать как аналитик кибербезопасности. 🧪 Как устроен бенчмарк? Модели поместили в среду, максимально приближенную к реальной. Они анализировали поток событий (Windows Security, Sysmon), внутри которого были спрятаны цепочки атак. Не отдельные техники, а полноценные сценарии. При этом модели не знали, есть ли атака в данных и сколько их. Фактически от них требовалось провести расследование: выделить слабые сигналы, проверить гипотезы и принять решение в условиях неопределённости. Именно это отличает новый бенчмарк от всех предыдущих. 📊 Лидер есть, но нет оптимизма Лучший результат показала Claude Opus 4.6: около 46% обнаруженных атак. При этом доля срабатываний от общего потока событий составила лишь ~4–5%, что подчёркивает слабую чувствительность в реальном шуме. Модели среднего уровня, включая GPT-4

Моделям предложили самостоятельно искать атаки.

28 апреля вышел новый бенчмарк от Simbian, один из первых, где языковые модели тестируют не на знание терминов, а на способность работать как аналитик кибербезопасности.

🧪 Как устроен бенчмарк?

Модели поместили в среду, максимально приближенную к реальной. Они анализировали поток событий (Windows Security, Sysmon), внутри которого были спрятаны цепочки атак. Не отдельные техники, а полноценные сценарии.

При этом модели не знали, есть ли атака в данных и сколько их. Фактически от них требовалось провести расследование: выделить слабые сигналы, проверить гипотезы и принять решение в условиях неопределённости.

Именно это отличает новый бенчмарк от всех предыдущих.

📊 Лидер есть, но нет оптимизма

Лучший результат показала Claude Opus 4.6: около 46% обнаруженных атак. При этом доля срабатываний от общего потока событий составила лишь ~4–5%, что подчёркивает слабую чувствительность в реальном шуме.

Модели среднего уровня, включая GPT-4o, демонстрировали нестабильность: они могли корректно выявлять отдельные техники, но регулярно теряли целые цепочки атак.

Наихудшие результаты показали компактные модели вроде GPT-4o mini, порядка 1–2% обнаружения, что практически эквивалентно слепому поиску.

Разница между моделями значительная, но огорчает другое: ни одна из них не достигает уровня, пригодного для реальной автономной защиты.

⚠️ Преждевременное завершение анализа

Особенно любопытно поведение моделей, которое сложно выявить в классических тестах. Часть из них самостоятельно прекращала анализ, решив, что данных уже достаточно для вывода (при этом атаки в логах могли продолжаться).

Когда система не только не сигнализирует о проблеме, но и уверенно сообщает, что всё в порядке, то думаешь на кой она вообще нужна?

🤯 Почему модели не справляются

Атака - это задача с чётким критерием успеха, а защита про поиск неизвестного в потоке шума без гарантии, что сигнал вообще присутствует.

LLM, обученные на задачах с “правильным ответом”, в такой среде теряют устойчивость. Им не хватает ни механизмов самопроверки, ни способности поддерживать длительное расследование.

🔗 Ссылка на бенчмарк

Stay secure and read SecureTechTalks 📚

#кибербезопасность #LLM #SOC #ThreatHunting #AIsecurity #MITREATTACK #BlueTeam #CyberDefense #InfoSec #SecureTechTalks