184 читали · 2 года назад
Как обнаружить выбросы в проекте по исследованию данных
Источник: Nuances of Programming В начале реализации проекта по исследованию данных важно обнаружить и обработать выбросы. В этом заключается одна из задач эксплораторного анализа данных. Мы рассмотрим три метода обнаружения выбросов. Но прежде выясним, что такое выброс, заглянув в Википедию: Выброс (в статистике)  —  это измерительная точка данных, которая значительно выделяется из общей выборки. Выбросы могут быть вызваны вариативностью измерений или указывать на экспериментальную ошибку; в последнем случае они иногда исключаются из набора данных...
ML. Ищем выбросы в данных.
У нас есть данные, практически все примерно одинаковы, но встречаются и такие, которые сильно отличаются, они много больше, либо много меньше большинства значений. Как раз такие, выделяющиеся из толпы данные, и есть выбросы. Они появляются из-за ошибок в данных. Их необходимо искать и, конечно, их необходимо удалять...