Моделям предложили самостоятельно искать атаки. 28 апреля вышел новый бенчмарк от Simbian, один из первых, где языковые модели тестируют не на знание терминов, а на способность работать как аналитик кибербезопасности. 🧪 Как устроен бенчмарк? Модели поместили в среду, максимально приближенную к реальной. Они анализировали поток событий (Windows Security, Sysmon), внутри которого были спрятаны цепочки атак. Не отдельные техники, а полноценные сценарии. При этом модели не знали, есть ли атака в данных и сколько их. Фактически от них требовалось провести расследование: выделить слабые сигналы, проверить гипотезы и принять решение в условиях неопределённости. Именно это отличает новый бенчмарк от всех предыдущих. 📊 Лидер есть, но нет оптимизма Лучший результат показала Claude Opus 4.6: около 46% обнаруженных атак. При этом доля срабатываний от общего потока событий составила лишь ~4–5%, что подчёркивает слабую чувствительность в реальном шуме. Модели среднего уровня, включая GPT-4