Найти тему
Машинное обучение

Учебное пособие по обнаружению аномалий для специалистов по данным

Оглавление

Учебное пособие по Python по обнаружения аномалий с использованием PCA и k-средних кластеризация.

Содержание

1. Введение

2. Руководство

3. Резюме

4. Рекомендации

Введение

Обнаружение аномалий широко используется специалистами по обработке данных и инженерами по машинному обучению для обнаруживать данные, которые больше всего отличаются от основной, обобщенной части ваших данных. это полезно при настройке предупреждений, чтобы увидеть, выходит ли запись данных за пределы определенного порог, обозначенный моделью кластеризации. Вы также можете просмотреть данные о событиях из веб-сайт продукта вашей компании, например, клики и просмотры, которые могут возможно увидеть какие-то аномалии. Некоторые другие варианты использования включают обнаружение мошенничества икибербезопасность. Другие области, такие как здравоохранение, могут значительно выиграть от аномалий обнаружение, а алгоритмы машинного обучения только упрощают обнаружение этих аномалий. автоматически.Ниже я дам ссылки по использованию обучения без учителя с помощью кластеризации. для автоматического обнаружения аномалий. Вы можете использовать этот код и применить его к своему набору данных как хорошо, чтобы следовать.

Руководство

Фото Маркуса Винклера на Unsplash
Фото Маркуса Винклера на Unsplash

Модель неконтролируемой кластеризации

Это руководство будет включать в себя импорт некоторых важных библиотек, предварительную обработку ваших данных, преобразовать его, создать модель кластеризации, используя анализ главных компонентов (PCA) и кривые, а также, в конечном итоге, изолировать точки данных, которые являются аномалиями. Неконтролируемая кластеризация - это аспект алгоритмов машинного обучения, не имеющий меток. уже, как 0 или 1, или красно-сине-зеленый, и тем не менее, это точки данных, которые имеют аналогичные атрибуты, которые можно классифицировать как одно и то же или похожее. Следующий код включает чтение данных, их масштабирование и преобразование как шаг предварительной обработки для конечной модели. Есть несколько ключевых библиотек для импорта, и некоторые из них, которые вы, скорее всего, уже использовали, например pandas и matplotlib. Вот первая часть этого учебного пособия по статье:

-3

В следующей части учебного мы определим наилучшее значение k для k-средних. Вы по существу хотите посмотреть, где линия графика обрывается. Мы также найдем лучшую сумму k-средних. В данном случае мы видим, что 3 - лучшее количество k для наших данных.

-4
Пример участка локтя, 3 - лучшее количество k. Скриншот автора [3].
Пример участка локтя, 3 - лучшее количество k. Скриншот автора [3].

В следующей части руководства используется алгоритм кластеризации k-средних для прогнозирования кластера для новых данных. Вы также увидите количество значений кластеров для получить представление о общих группах выборки. Наконец, мы построим кластеры после их раскрашивания.

-6
Пример кластерного графика. Скриншот автора [4].
Пример кластерного графика. Скриншот автора [4].

Затем мы сделаем следующее:

Получим расстояние между каждой точкой и ее ближайшим центроидом.

  • Самые большие расстояния считаются аномалией

Визуализация аномалии в виде кластера:

  • красный = аномалия
  • синий = нормальный
-8
Пример кластера аномалий. Скриншот автора [5].
Пример кластера аномалий. Скриншот автора [5].

Резюме

Как видите, с помощью алгоритмов машинного обучения можно создать Научную модель, которую можно сохранить и использовать для группировки данных как аномальных или нормальных данных. Есть несколько вариантов использования обнаружения аномалий. Data Science только делает это проще, и эти варианты использования могут извлечь выгоду из алгоритмического способа обнаружения аномалий:

-10

Надеюсь, моя статья была вам интересна и полезна. Не стесняйтесь комментировать ниже о том, как вы используете обнаружение аномалий и какие шаги вы предпринимаете, чтобы выполнить это как Данные Ученый или инженер по машинному обучению. Спасибо за прочтение!

Наука
7 млн интересуются