Выброс – это Наблюдение (Observation), удаленное от других в выборке. Другими словами, это наблюдение, которое расходится с общей закономерностью Выборки (Sample). Стоит различать это определение с Несбалансированным датасетом (Imbalanced Dataset). Хоть в определениях и есть некоторые сходства, однако несбалансированный набор данных с точки зрения Машинного обучения (ML) – это меньший размер выборки одного класса в сравнении с другим. Источники выбросов Появление таких наблюдений может быть вызвано: Выбросы могут быть результатом ошибки во время сбора данных или индикатором расхождения наблюдений. Потому их надлежит исключить из Датасета (Dataset). Однако Дата-сайентисты (Data Scientist) могут столкнуться с трудностями во время разграничения выбросов и нормальных значений, потому и не спешат исключать то или иное наблюдение. Разновидности выбросов Выделяют 3 типа выбросов: Почему так важно идентифицировать выбросы? Алгоритмы Машинного обучения чувствительны к диапазону и распределению
Outlier в Машинном обучении простыми словами
15 января 202115 янв 2021
86
3 мин