Представьте, что вы взяли выборку из кандидатов с рынка и хотите определить, на какую зарплату ориентироваться при подборе.
Бюджет мы считаем по среднему арифметическому. То есть для данной выборки среднее составит 29 231 руб. Но кандидат 11 с зарплатными ожиданиями 55 000 рублей выделяется. Если его убрать, то среднее значение снизится до 27 083 руб.
Как находить и убирать такие выбросы в данных?
Выбросы – это очень большие или очень маленькие значения. Как определить, является ли значение выбросом и следует ли его удалять?
Для тех, кто не хочет разбираться в тонкостях расчетов, я подготовила калькулятор.
Вам нужно вставить свои значения в колонку А, начиная с ячейки А2. В результате очень маленькие значения в выборке будут подсвечены красной заливкой, а очень большие значения в выборке – оранжевой заливкой. В ячейке с расчетом среднего значения вы получите результат без этих выбросов.
Дальше пишу для тех, кто хочет разобраться в порядке расчета.
Для расчетов мы используем такое понятие, как квартиль. Любой набор данных можно разделить на 4 равных отрезка. Квартили – это значения, делящие упорядоченный ряд данных на 4 равные части.
Алгоритм расчета выбросов
1. Нам нужно определить первый (Q1) и третий (Q3) квартили. Для этого используем функцию Excel КВАРТИЛЬ.ВКЛ. Для расчета Q1 используем формулу КВАРТИЛЬ.ВКЛ (массив данных;1), для расчета Q3 – формулу КВАРТИЛЬ.ВКЛ (массив данных;3).
2. Рассчитаем расстояние между третьим и первым квартилем (межквартильный размах МР). Считается как разность значений, получившихся при расчете Q3 и Q1.
3. Определяем внутреннюю нижнюю границу для выброса: Q1 – 1,5*МР.
4. Определяем внутреннюю верхнюю границу для выброса: Q3+1,5*МР.
Если у нас есть значения, выходящие за верхние и нижние границы, мы удаляем их из нашей выборки и считаем среднее значение без учета выбросов.
Ищите меня в соц. сетях: