38 подписчиков

Алоритмы выявления аномалий

22 ноября 202222 ноя 2022

3 мин

В данной работе сделаем акцент на анализе данных для выявления данных с целью предотвращения киберугроз. Простые статистические методы, такие как среднее, медиана, квантили, могут быть использованы для обнаружения одномерных аномальных значений признаков в наборе данных. Для обнаружения аномалий можно также использовать различные методы визуализации данных и исследовательского анализа данных.
В проанализированных работах, на основе анализа данных были выявлены осноные алгоритмы, позволяющие увидеть аномалию.
Например, алгоритм обнаружения ансамблиевых аномалий, изолированный лес (или iForest, Isolation Forest) - это алгоритм обнаружения аномалий без наблюдения, который использует алгоритм так называемого случайного леса (деревьев решений) для обнаружения выбросов в наборе данных. Алгоритм пытается разделить точки данных таким образом, чтобы каждое наблюдение было изолировано от других.
Обычно аномалии лежат в стороне от кластера точек данных, поэтому их легче изолировать по сравнению с обычными точками данных.
Оценка аномалии вычисляется для всех точек данных, и точки, оценка аномалии которых > порогового значения, могут считаться аномалиями.
В кибербезопасности данный алгоритм применяется, например, при анализе данных веб-страниц. В работе [6] описан эксперимент с использованием алгоритма изолириованного леса. Многие кибер-атаки оставляют следы в данных HTTP. Для этих экспериментов мы ограничиваем набор данных HTTP. Мы проверили концепцию использования iForests для обнаружения необычных записей HTTP с помощью журналов Bro HTTP с нормальным и известным вредоносным поведением.
Многие кибер-атаки оставляют следы в данных HTTP. В этом эксперименте мы ограничились набором данных HTTP. Используя журналы Bro HTTP с нормальной и известной вредоносной активностью, мы проверили концепцию использования iForests для обнаружения аномальных записей HTTP.
Согласно [6] было проведено несколько экспериментов, используя два набора данных, один с нормальной пользовательской активностью, а другой - с вредоносной. Файлы вредоносного ПО были созданы из веб-образцов известных вредоносных атак, извлеченных из двух веб-сайтов, ContagioDump и Malware Domain List. Нормальные данные были записаны с помощью собственного кластера Attack Lab компании Sqrrl. Этот кластер представляет собой предприятие среднего размера, размещенное в Simspace, и включает конечные машины, сервисы и сетевое оборудование. Нормальная деловая активность моделировалась в течение нескольких дней с помощью интеллектуальных агентов, а данные о сетевой активности записывались на внутренних коммутаторах и пограничных маршрутизаторах. Как нормальные, так и вредоносные наборы данных состояли из данных захвата пакетов (PCAP), записи сетевой активности; файлы PCAP были декодированы с помощью Bro, и для этих экспериментов использовались стандартные HTTP-журналы Bro. В этом тесте в журнале Bro было 37 978 вредоносных записей и 271 129 нормальных записей. В реальном мире соотношение нормального и вредоносного поведения обычно невелико.
Поскольку алгоритм изолированного леса работает исключительно с числовыми измерениями, в работе [6] нечисловые поля в HTTP-логе Bro в числовые и использовать их в качестве функции. В данном случае она представлена одной пунктирной линией, но должен быть лучший способ ее представления. Обработка этих функций в Word2Vec может создать латентное пространство, подходящее для анализа в iForests.
Другим методом обнаружения аномалий является так называемый локальный фактор выброса - это еще один метод обнаружения аномалий, который учитывает плотность точек данных, чтобы решить, является ли точка аномалией или нет. Локальный фактор выброса вычисляет балл аномалии, называемый балл аномалии, который измеряет, насколько изолирована точка по отношению к окружающим окрестностям. При расчете балла аномалии учитывается как локальная, так и глобальная плотность.