Как было показано в статье про столбчатую диаграмму ни арифметическое среднее, ни стандартное отклонение, изображаемые на столбчатых диаграммах, не подходят для описания ненормального распределения. Тогда какими величинами в подобных ситуациях стоит оперировать? Лучше всего для описания ненормального распределения подходят медиана (Ме), квартили (Q), минимум и максимум (min, max). Теперь давайте подробно разберёмся с каждой из этих величин. Начнём с медианы (Ме). Измерим количество кариозных зубов у 11 школьников. Вот какие цифры получились:
Теперь ранжируем полученные значения, то есть расставим их от меньшего к большему:
В получившемся ряду можно без труда найти медиану (Ме). Она будет находиться в центре ряда:
Как видите, найти медиану не составило труда. Теперь осталось разобраться, что такое квартили. Фактически медиана делит числовой ряд пополам, в то время как квартили — на 4 равные части. То есть для нахождения первого и третьего квартилей (Q₁ и Q₃) достаточно правую и левую половину числового ряда, разбитого медианой, поделить ещё раз пополам:
Куда же делись второй и четвёртый квартили? Второй квартиль — это, по сути, медиана (Q₂ = Ме). Четвёртый квартиль замыкает числовой ряд и совпадает с максимумом, поэтому его не принято обозначать (Q₄ = max). Таким образом, говоря о квартилях, подразумевают именно первый и третий. Иногда первый и третий квартили называют 25-м и 75-м процентилями и обозначают Q₂₅ и Q₇₅. И осталось последнее: определить минимум (min) и максимум (max). Это самая простая задача. Минимум и максимум — это крайние значения числового ряда:
Полученные значения можно использовать для построения диаграммы «ящик с усами» (рис ниже).
Следует отметить, что во второй половине ХХ века появились несколько иные способы начертания «усов» на диаграмме, например по общеизвестному методу, изложенному Тьюки в Exploratory Data Analysis (1977). Однако этот метод не получил широкого распространения и остаётся уделом профессионалов. Данный пример приводится только для того, чтобы вы не допускали распространённую ошибку: не путайте классическую ящичковую диаграмму и диаграмму Тьюки.
Ящичковая диаграмма является универсальной и наилучшим образом подходит для предварительного визуального анализа данных. По симметричности отклонения краёв «ящика» и минимума и максимума от медианы можно понять, с каким распределением вы имеете дело. У нормального распределения медиана будет совпадать с арифметическим средним, а края «ящика» и «усы» — симметрично отклоняться от медианы (рис ниже, слева).
Чем больше границы сравниваемых «ящиков» расходятся в пространстве, тем выраженнее статистические различия. При построении точечной диаграммы поверх ящичковой вы можете видеть каждое значение отдельно и более внимательно оценивать распределение значений и выбросы (рис выше, справа). Однако не следует увлекаться избыточной детализацией. Для окончательного графика не перегружайте его и оставляйте только самое необходимое.
Почему предпочтительнее использовать медиану, чем арифметическое среднее?
Чем с математической точки зрения отличаются эти параметры, вы уже могли разобраться. Напоследок хотелось бы обратить внимание на их логическую разницу. Примером будет служить малая выборка. Вы измерили рост у 3 учеников 6-го класса. У одного ученика он равнялся 143 см, у другого — 150 см и у третьего — 205 см. Арифметическое среднее при этом равно 163 см, а медиана — 150 см.
Рост третьего школьника является существенным отклонением от нормы: редко встретишь здоровенного 6-классника, способного играть в профессиональной баскетбольной лиге. Этот выброс привёл к высокому значению арифметического среднего. Поскольку главная задача статистики — оценить вероятность события или значения в выборке на всю популяцию, — арифметическое среднее в такой ситуации не подходит. Скорее, рост любого другого 6-классника будет около 150 см, но не 160 см. Рост — это величина, имеющая распределение, близкое к нормальному. Однако в масштабах малых выборок могут попадаться выбросы, которые в состоянии существенно исказить вероятность ожидания события. Медиана способна нивелировать значимость таких выбросов, в то время как арифметическое среднее — нет. Это пример того, как арифметическое среднее для сравнения результатов в малых группах исследования может приводить к ложным выводам. Очень важно также знать, что медиана в случае нормального распределения будет равна арифметическому среднему (рис ниже).
Отсюда следующий совет: при предварительной оценке данных опирайтесь на медиану.
Пишите в комментариях, если хотите чтобы я поделился чем-нибудь ещё.
© Васильев А.В.
Копирование и распространение без согласия автора не допускается.