Найти тему
Галина Дейнекина

Как расчет среднего значения может навредить?

Представьте, что вы взяли выборку из кандидатов с рынка и хотите определить, на какую зарплату ориентироваться при подборе.

-2

Бюджет мы считаем по среднему арифметическому. То есть для данной выборки среднее составит 29 231 руб. Но кандидат 11 с зарплатными ожиданиями 55 000 рублей выделяется. Если его убрать, то среднее значение снизится до 27 083 руб.

Как находить и убирать такие выбросы в данных?


Выбросы – это очень большие или очень маленькие значения. Как определить, является ли значение выбросом и следует ли его удалять?

Для тех, кто не хочет разбираться в тонкостях расчетов, я подготовила
калькулятор.

Вам нужно вставить свои значения в колонку А, начиная с ячейки А2. В результате очень маленькие значения в выборке будут подсвечены красной заливкой, а очень большие значения в выборке – оранжевой заливкой. В ячейке с расчетом среднего значения вы получите результат без этих выбросов.

Дальше пишу для тех, кто хочет разобраться в порядке расчета.
Для расчетов мы используем такое понятие, как квартиль. Любой набор данных можно разделить на 4 равных отрезка.
Квартили – это значения, делящие упорядоченный ряд данных на 4 равные части.

-3

Алгоритм расчета выбросов

1. Нам нужно определить первый (Q1) и третий (Q3) квартили. Для этого используем функцию Excel КВАРТИЛЬ.ВКЛ. Для расчета Q1 используем формулу КВАРТИЛЬ.ВКЛ (массив данных;1), для расчета Q3 – формулу КВАРТИЛЬ.ВКЛ (массив данных;3).

2. Рассчитаем расстояние между третьим и первым квартилем (межквартильный размах МР). Считается как разность значений, получившихся при расчете Q3 и Q1.

3. Определяем внутреннюю нижнюю границу для выброса: Q1 – 1,5*МР.

4. Определяем внутреннюю верхнюю границу для выброса: Q3+1,5*МР.


Если у нас есть значения, выходящие за верхние и нижние границы, мы
удаляем их из нашей выборки и считаем среднее значение без учета выбросов.

Ищите меня в соц. сетях:

Facebook
Telegram-канал