Некоторое время назад я написал статью о «мерах центральной тенденции» или, говоря человеческим языком, о показателях, которые характеризуют средние или наиболее популярные значения в статистической выборке. Все со школьной скамьи знакомы со средним арифметическим, которое настолько плотно вошло в повседневную жизнь, что начало называться просто «средним». И не зря.
Среднее — это один из лучших показателей центра распределения, однако не во всех ситуациях и не со всеми типами распределений оно работает одинаково хорошо, что стало причиной появления шуток про «среднюю зарплату» и «среднее по больнице».
Меры центральной тенденции описывают центр совокупности наших данных, но ничего не говорят нам о том, насколько сильно они разбросаны относительно этой центральной точки.
Удивительно, но само существование какого-то разброса неизбежно вытекает из того, что мы начали говорить о «среднем». Если бы все значения в выборке были равны друг другу, было бы незачем рассчитывать какую-то там среднюю величину, ведь можно было бы обойтись значением этой самой величины.
В повседневной жизни основное внимание отводится именно средней величине, разбросу же зачастую не уделяется должного внимания. При этом и разброс, и отклонение среднего от некоей целевой величины могут быть одинаково вредны. Рассмотрим пример стрельбы по мишени, где один из стрелков бил кучно, но мимо десятки (справа), а другой - наоборот.
В обоих случаях было набрано по 35 очков, но кто выступил лучше - вопрос не самый тривиальный. За кого проголосовали бы вы?
C примера стрельбы по мишени начинает и свою последнюю книгу «Шум» Даниэль Канеман. Книга посвящена проявлениям разброса человеческих суждений в тех сферах, где это проявляется самым негативным образом: при вынесении судебных решений или при постановке диагноза.
С проявлением разброса мы можем сталкиваться и в быту. Представим, что вы заказали у мастера три табурета высотой 46 см. Он ошибся (или решил сэкономить на материалах), и выставил вам три табурета высотой 45 см. Это первый расклад. Второй — он выставил вам три табурета высотой 45, 46 и 47 см. В каком из вариантов вы скорее примете работу?
Скажу за себя — у второго варианта заведомо нет шансов. Более того, в первом случае обнаружить подвох без рулетки будет практически невозможно.
Разброс значений очень важным показателем для оценки качества процессов. Чем он ниже, тем более качественным, более стабильным он является. И так же, как в случае показателей центра распределения, существует несколько показателей разброса выборки, каждый из которых имеет свою область применения.
Размах
Размах — самая простая мера вариации, численно равная диапазону между минимальным и максимальным значением выборки.
По размаху нельзя сделать выводы о свойствах распределения, он говорит только о свойствах двух значений в выборке — минимального и максимального. А если выборка довольно значительная по размеру, и её крайние значения являются выбросами, ценность размаха на практике сводится к нулю.
Среднее линейное отклонение
Среднее линейное отклонение (называемое также средним абсолютным отклонением или средним отклонением) является средним расстоянием каждой точки от среднего значения:
В формуле присутствует модуль, так как если взять разность без модуля, то их сумма будет обязательно равна нулю. И для практики предлагаю сразу рассмотреть какой-нибудь пример. Давайте посмотрим, какая дневная температура воздуха стояла в Воронеже 8 марта в течение нескольких лет подряд:
Средняя величина равна 3,2 °С, однако посмотрите, каков разброс! От минус 8 до плюс 16 - целых 24 градуса (кстати, это и есть размах, R = 24)
В столбце x - xср отражена разность между текущим и средним значением (3,2 °С). Сумма этих значений непременно будет равна нулю, так как отклонения от среднего есть и вверх, и вниз, и в конечном счёте уравновешивают друг друга.
В следующем столбце разность взята по модулю, отрицательные значения исчезли, и теперь их можно суммировать и вычислять среднее. Сумма равна 52, среднее равно 5,2 - это и есть среднее линейное отклонение.
Данная величина показывает на сколько в среднем каждое значение отличается от центральной линии. Хороший показатель? Неплохой для понимания, но на практике использующийся весьма редко.
Дисперсия
В прошлом примере было показано, что если для вычисления меры отклонения использовать сумму разностей между значениями и средней величиной без модуля, она всегда будет равна нулю.
Ещё одним способом избавиться от отрицательных величин отклонений является возведение в квадрат. Если отклонение для каждой точки возвести в квадрат и определить среднее, мы получим дисперсию — величину на первый взгляд малопонятную, но имеющую очень широкое применение в статистике.
Для упомянутого выше примера о температуре дисперсия будет равна 43,96 кв. °С. То, что единицей измерения дисперсии является квадрат единицы измерения величины, добавляет путаницы и лишает дисперсию осязаемости. Смысл и практическое значение этого показателя раскроется позже, поэтому не буду на нём отдельно останавливаться.
Среднеквадратическое отклонение
Не думаю, что погрешу против истины, если скажу, что среднеквадратическое отклонение, называемое также стандартным, является самым популярным и важным показателем, применяемым для оценки разброса значений.
По своему смыслу — это квадратный корень из дисперсии:
Таким образом среднеквадратическое отклонение измеряется в тех же единицах, что и измеряемая величина.
Для нашего примера с температурой в Воронеже среднеквадратическое отклонение равно корню из дисперсии (43,96) и составляет примерно 6,6.
Как и в случае с дисперсией, физический смысл среднеквадратического отклонения будет подробно раскрыт в следующих статьях, отмечу лишь, что на основании этой величины можно уже делать вполне обоснованные прогнозы. К примеру, можно посчитать, с какой вероятностью температура будет находиться в том или ином диапазоне. Так, с вероятностью около 2% температура будет выше 16,4 °С, к такой же вероятностью она будет ниже -10,0 °С.
Интерквартильный размах
В прошлой статье (о показателях центра распределения) для описания центральной метрики сильно неравномерных выборок лучшим вариантом будет использование медианы.
Для того, чтобы определить медиану, выборку нужно разложить в вариационный ряд (это та же самая выборка, но ранжированная от минимального до максимального значения), а потом найти его середину.
Если вариационный ряд разбить на четыре равные части, их границы будут называться квартилями:
В нашем случае первый квартиль равен -0,75, второй равен 3,5, третий равен 7. Интерквартильный размах - это разность третьего и первого квартиля, то есть 7,75.
Расчёт квартилей для данного ряда может показаться не вполне очевидным, поэтому вкратце расскажу о том, как это делается. Взглянем на рисунок выше.
На нем представлен наш вариационный ряд, то есть показания термометра 8 марта в Воронеже, ранжированные от минимального к максимальному значению - концы интервала точно выставлены на -8 и +16.
Число, которое разбивает вариационный ряд пополам - это медиана или второй квартиль (Q2). В нашем случае количество измерений является чётным, и медиана лежит ровно между центральными значениями, а именно 3 и 4. То бишь медиана равна 3,5.
Первый квартиль (Q1) - это центр отрезка, что лежит левее медианы, а третий (Q3)- той, что правее. Можно видеть, что Q1 и Q3 не указывают на какое-либо числа и даже не лежат аккурат между другими числами. На самом деле, Q1 находится на четверти пути между -1 и 0, т.е. в точке -0,75, а Q3 - за 3/4 пути между 4 и 8, т.е. в точке 7.
Вы можете поупражняться в вычислении квартилей и интерквартильного размаха и даже выявить некоторые закономерности (например для выборок с количеством элементов 5, 9, 13 и прочих 4N+1 все квартили будут вычисляться легко и являться элементами этих выборок), но лучше довериться компьютеру.
Например, в LibreOffice Calc (аналоге Microsoft Excel) для вычисления квартилей используется функция
= КВАРТИЛЬ()
где помимо ряда нужно задать порядковый номер квартиля, который требуется вычислить.
Итоги
Первое. Несмотря на значительное количество метрик, применяемых для оценки степени разброса, все они обладают тем свойством, что равны нулю, если выборка состоит из одинаковых значений.
Второе. Каждый из показателей разброса имеет свою область применения, которые будут раскрыты далее, поэтому не забывайте подписываться на канал.
Совсем скоро теоретическая часть закончится и мы перейдём к практическому применению статистики.
Домашнее задание
Рассчитайте все вышеупомянутые показатели разброса для исторических данных температуры 8 марта в Санкт-Петербурге за те же годы:
-1; -3; +5; +5; +2; +4; -2; +5; +5; -6
и сделайте выводы, в каком из городов температура в эту дату является более предсказуемой.