20 подписчиков

⚖️ Кибербезопасность против дисбаланса: какие ML-модели реально работают

13 мая 202513 мая 2025

1 мин

⚖️ Кибербезопасность против дисбаланса: какие ML-модели реально работают? Многие задачи в кибербезопасности — это бинарная классификация: - вредоносно / не вредоносно, - взлом / норма, - фрод / честная транзакция. Но беда в том, что “вредные” события — редкость, и модели, обученные на таких дисбалансных данных, часто просто «игнорируют» меньшинство. В результате — false negatives, и злоумышленники остаются незамеченными. Исследователи провели масштабное тестирование ML моделей, чтобы изучить данную проблематику. 🧪 Что протестировали? Авторы взяли два больших датасета: Credit Card Fraud (европейская e-commerce): 283726 транзакций, 0.2% — мошенничество (598:1) PaySim (симуляция мобильных платежей): 6.3 млн транзакций, 0.13% — фрод (773:1) И провели 3 эксперимента: ⚙️ Эксперимент 1: какие алгоритмы работают лучше? Тестировали 6 моделей: ➖ Random Forests (RF) ➖ XGBoost (XGB) ➖ LightGBM (LGBM) ➖ Logistic Regression (LR) ➖ Decision Tree (DT) ➖ Gradient Boosting (GBDT) 📈 Ре

⚖️ Кибербезопасность против дисбаланса: какие ML-модели реально работают?

Многие задачи в кибербезопасности — это бинарная классификация:

- вредоносно / не вредоносно,

- взлом / норма,

- фрод / честная транзакция.

Но беда в том, что “вредные” события — редкость, и модели, обученные на таких дисбалансных данных, часто просто «игнорируют» меньшинство. В результате — false negatives, и злоумышленники остаются незамеченными.

Исследователи провели масштабное тестирование ML моделей, чтобы изучить данную проблематику.

🧪 Что протестировали?

Авторы взяли два больших датасета:

Credit Card Fraud (европейская e-commerce):

283726 транзакций, 0.2% — мошенничество (598:1)

PaySim (симуляция мобильных платежей):

6.3 млн транзакций, 0.13% — фрод (773:1)

И провели 3 эксперимента:

⚙️ Эксперимент 1: какие алгоритмы работают лучше?

Тестировали 6 моделей:

➖ Random Forests (RF)

➖ XGBoost (XGB)

➖ LightGBM (LGBM)

➖ Logistic Regression (LR)

➖ Decision Tree (DT)

➖ Gradient Boosting (GBDT)

📈 Результаты:

➖XGBoost и Random Forest — самые устойчивые и точные.

➖DT отлично справился с PaySim (F1 = 0.90).

➖LGBM — худший результат в обоих случаях.

🧪 Эксперимент 2: как влияют методы балансировки?

Проверили:

➖ Over-sampling

➖ Under-sampling

➖ SMOTE

➖ Без выборки

🧩 Выводы:

➖Over-sampling часто помогает, улучшая Recall.

➖SMOTE иногда ухудшает качество (шум в синтетике).

➖Under-sampling — почти всегда вредит (слишком много потерь).

➖Лучший эффект: Over-sampling + XGBoost (F1 > 0.85)

🧠 Эксперимент 3: ансамблизация через Self-Paced Ensemble (SPE)

Протестировали, как влияет количество моделей в ансамбле (10, 20, 50).

📊 Инсайты:

➖ Precision растёт с количеством моделей, Recall — падает.

➖ Наиболее сбалансированный результат: SPE c XGB, N=20.

➖В некоторых задачах простая модель без выборки работает лучше, чем “мега-ансамбль”.

🧭 Главный вывод:

Нет универсального рецепта.

Модель, которая работает на одном наборе, может провалиться на другом.

✅ Рекомендации:

➖Тестируйте разные модели под конкретный датасет

➖Избегайте слепого применения SMOTE

➖Сравнивайте Over-sampling и ансамбли

➖Не верьте F1 без анализа Precision/Recall

🔗 Код открыт!

Всё доступно на GitHub

Stay secure and read SecureTechTalks 📚

#SecureTechTalks #CyberSecurity #MachineLearning #ImbalancedData #XGBoost #FraudDetection #SMOTE #EnsembleLearning #DataScience #MLinSecurity