Добавить в корзинуПозвонить
Найти в Дзене

ML. Ищем выбросы в данных.

У нас есть данные, практически все примерно одинаковы, но встречаются и такие, которые сильно отличаются, они много больше, либо много меньше большинства значений. Как раз такие, выделяющиеся из толпы данные, и есть выбросы. Они появляются из-за ошибок в данных. Их необходимо искать и, конечно, их необходимо удалять.
Есть несколько способ поиска выбросов:
1. Поиск и удаление по порогу.
Тут мы

У нас есть данные, практически все примерно одинаковы, но встречаются и такие, которые сильно отличаются, они много больше, либо много меньше большинства значений. Как раз такие, выделяющиеся из толпы данные, и есть выбросы. Они появляются из-за ошибок в данных. Их необходимо искать и, конечно, их необходимо удалять.

Есть несколько способ поиска выбросов:

1. Поиск и удаление по порогу.

Тут мы работаем своими глазками, логикой, здравым смыслом и интуицией. Нужно всего то внимательно посмотреть на данные, возможно какие-либо значения покажутся нам нелогичными и невозможными, такие значения мы и будем считать выбросами при использовании такого метода.

2. Поиск с помощью статистики.

Посмотреть и поискать своими глазками среди данных выбросы, конечно занятное дело, тем не менее такой процесс сложно автоматизировать. И тогда нам приходят на помощь более эффективные статистические методы. К ним можно отнести поиск по отклонению, либо поиск по распределению IQR (interquatile range - межквартильное расстояние)

3. Поиск с помощью DBSCAN.

Это один из методов кластеризации. Он автоматически находит шум в данных. Разбивает данные на кластеры и ищет какие значения не попали к кластерам или находятся далеко от центра кластера.

Естественно применяя разные методы поиска выбросов мы получим разные результаты, при этом выделяющиеся значения не всегда будут выбросами, всегда остаётся вероятность того, что данных пока просто напросто не хватает.

P.S. Если, нашли ошибки, недочёты или хотите дополнить сказанное, всегда рада конструктивному мнению специалистов.