Найти тему

Первый взгляд на статистические данные. Показатели центра распределения

Оглавление

Статистика — это наука о методах сбора, анализа, представления и интерпретации числовых данных. В части принятия обоснованных решений она является своеобразным посредником между окружающим миром и человеком, занимаясь преобразованием необработанного материала в виде исходных данных в пригодную для восприятия информацию. Об этом обычно не принято задумываться, но именно здесь отчётливо проявляется очередное свидетельство ограниченности человеческого разума, который не способен оперировать большими объёмами числовой информации.

К примеру, изучите визуально следующий ряд чисел:

Какие будут соображения?

Думаю, вы подметили, что значения в этом ряду довольно ощутимо отличаются друг от друга. С другой стороны, отличаются они не так чтобы слишком сильно, что называется «без крайностей». Кроме того, значения обладают одинаковой точностью представления — до первого знака после запятой и, скорее всего, описывают какие-то однотипные объекты.

Так оно и есть. На картинке выше изображены реальные данные, а именно количество часов, которое требовалось для изготовления каждой следующей партии битумной мастики в течение месяца.

А теперь представим, что вам требуется принять какое-либо решение, опираясь на эти данные. Уверен, что вы не будете оперировать всей совокупностью данных целиком, а попытаетесь свести её описание к одному или двум числам и, подозреваю, что вы уже это сделали. Скорее всего, изучая ряд, вы так или иначе попытались оценить среднее значение — величину, которая является одним из показателей центра распределения.

Показатели центра распределения — это величины, тем или иным образом характеризующие средние или наиболее популярные значения в выборке. К ним, помимо среднего арифметического относят среднее геометрическое, среднее гармоническое, медиану, моду и ряд других.

Вместо термина «показатель центра распределения» на просторах интернета можно встретить «меры центральной тенденции» — не что иное, как кальку с английского “central tendency”, означающее ровно то же самое, но звучащее как-то не по-русски.

Вообще, описание сколь угодно большой выборки при помощи одного лишь числа довольно удобно, несмотря на то, что исчерпывающе сделать это вряд ли получится.

-2

Показатели центра распределения являются отправной точкой в науке об интерпретации данных, поэтому познакомимся более подробно с самыми важными их них.

Среднее арифметическое

Среднее арифметическое — это отношение суммы всех значений ряда к их количеству.

-3

Для нашего ряда среднее арифметическое будет равно

-4

Понятие среднего арифметического (называемого зачастую просто «средним») было введено в оборот ещё пифагорейцами, знакомо нам со средней школы, а его значение зачастую незаслуженно принижается. В процессе разного рода докладов, упомянув среднюю величину, мне частенько приходилось слышать ехидные смешки в зале: «Средняя температура по больнице!» Их источниками были люди, разбирающиеся в статистических методах на уровне понимания того, что «есть ложь, есть наглая ложь и есть статистика».

Среднее арифметическое настолько часто используется для оценки разнообразных данных, что офисные программы, такие как Excel или LibreOffice Calc, автоматически вычисляют среднее значение выделенного диапазона чисел:

-5

В нашем случае среднее значение ряда, приблизительно равное двадцати часам, можно применять для грубой оценки возможностей производства на следующий месяц, для сравнения скорости производства от месяца к месяцу и так далее.

Несмотря на простоту вычисления и интуитивную понятность среднего арифметического, нередки случаи, когда его использование будет ошибочным. Попытайтесь решить (или вспомнить) эти задачки:

  • Алёша шёл к бабушке из пункта А в пункт Б со скоростью 5 км/ч, а возвращался со скоростью 3 км/ч. С какой средней скоростью шёл Алёша? (Подсказка: это не 4 км/ч)
  • Акции за первый год выросли на 10%, а за второй — на 30%. Какова средняя доходность акций за год? (Подсказка: это не 20%)
  • При первом наблюдении азимут яркой звезды был равен 359 градусов, а через несколько минут — 1 градус. Каков был средний азимут яркой звезды в процессе наблюдений? (Подсказка: это не 180 градусов)

Ответы на эти несложные примеры вы, по традиции, вы найдёте в конце статьи.

Медиана

В подразделении семь сотрудников: начальник отдела, его заместитель и пять менеджеров по продажам. Оклад менеджера 20 тысяч, заместителя — 200 тысяч, начальника — 400 тысяч рублей. Чему будет равно среднее значение оклада сотрудников отдела и каков смысл в этой величине?

Менеджеры по продажам несомненно будут возмущены, если узнают, что средняя зарплата по их отделу составляет сто тысяч рублей, однако такая ситуация является типичной, когда речь идёт о средних зарплатах. Подавляющее большинство людей не дотягивают до уровня среднего арифметического, а горстке толстосумов вся эта статистика обычно до лампочки.

В данном случае среднее арифметическое «плохо работает», так как мы имеем дело с ассиметричным и не нормальным распределением. О том, что такое нормальное распределение, я попытаюсь рассказать человеческим языком в одной из следующих статей, поэтому не забудьте подписаться на канал.

В данный момент важно понять, что среднее значение не слишком пригодно для характеристик таких вот не симметричных выборок. Для этих целей куда лучше подходит медиана — число, делящее упорядоченную по возрастанию выборку на две половины. В данном случае медиана будет вычисляться вот так:

-6

Согласитесь, что эта величина гораздо более интересно характеризует выборку, нежели среднее арифметическое.

Медиану от среднего отличает то, что она куда более устойчива к выбросам и прочим, сильно отклоняющимся от нормы значениям. Если добавить к воображаемому подразделению ещё одного сотрудника c зарплатой пусть даже в миллион рублей, медиана ни коим образом не изменится, в то время как среднее увеличится более чем в два раза:

-7

Можно заметить, что в данном случае медианой является не какое-то число из выборки, а «пространство» между центральной парой чисел. В рассматриваемом случае этой парой являются числа 20000 и 20000, поэтому медиана однозначно равна 20000. А в общем случае для выборок, содержащих чётное количество элементов, медиану рассчитывают как среднее арифметическое двух центральных значений. Повторюсь: выборка при этом должна быть упорядочена по возрастанию.

Имеет смысл в данном случае

Вычисление медианы является более трудоёмким нежели вычисление среднего арифметического, однако для компьютера это не представляет никакой сложности. Функции для определения медианы и в Excel, и в LibreOffice Calc выглядят идентично:

=МЕДИАНА()

Если мы вернёмся к самому первому ряду (с временами производства битумной мастики), и вычислим медиану, то она будет отличаться от среднего значения почти на три часа в меньшую сторону. О чём нам это говорит?

-8

Если мы построим частотную диаграмму, раскидав все значения из ряда по нескольким «корзинам», то увидим, что наше распределение не является идеально симметричным: большая часть значений сконцентрирована в левой его части. Очевидно, что в данном случае медиана расположена близ наиболее вероятных значений в выборке — и это правило будет справедливо для всех несимметричных распределений.

-9

В связи с этим для целей разработки нормативов времени производства я бы использовал медиану, так как организация способна уверенно производить продукцию за это время, а для целей планирования ориентировался бы на среднюю величину, так как в ней «зашиты» разного рода отклонения, причину которых мы пока не установили, но которые неизбежно будут присутствовать в реальной жизни.

Возможно, что эти умозаключения кому-то покажутся слишком наивными, однако мы находимся в самом начале пути, пока что ограничены в инструментарии, так что данные подходы будут вполне оправданными.

Мода

Мода — это наиболее часто встречающееся значение в выборке. Несмотря на то, что определение кажется наиболее простым из всех встречавшихся ранее, часто она не является сколь либо информативной величиной. Давайте рассмотрим уже упоминавшиеся примеры.

В примере с зарплатами мода, как и медиана, равна 20000 руб, что не вызывает внутреннего противоречия, но если мы посмотрим на времена изготовления битумной мастики, то увидим, что тут две моды: это числа 12,5 и 30,4, каждое из которых встречается дважды. Какой же смысл несут эти числа? Да фактически никакого! На гистограмме эти точки ничем не примечательны, они даже лежат вне самой высокой корзины. Более того, если посмотреть на каждое из «модальных» значений с большей точностью, мы увидим, что парочка 12,5 распадётся на 12,48 и 12,51, аналогичная картина будет и с числом 30,4. Получается, что мода будет зависеть от точности измерения? И да, и нет, но в связи с этими нюансами моду в статистике применяют нечасто.

Наиболее оправдано, на мой взгляд, её применение в качестве характеристики наборов качественных, в том числе и номинальных данных (статья о типах данных была чуть ранее). Например, если мы будем отмечать цвета проезжающих мимо нас автомобилей:

белый, синий, белый, белый, чёрный, серый, синий, белый,

то вычислим, что мода равна белому цвету.

Другой практический смысл мода имеет для абсолютно непрерывных распределений, не встречающихся в повседневной жизни, но являющихся удобными моделями. В данном случае моды — это точки локальных максимумов на графике плотности вероятности.

Если мы взглянем на график плотности вероятности, либо посмотрим на гистограмму реального распределения и увидим несколько выраженных максимумов, это будет означать, что распределение мультимодально и не может быть удовлетворительно описано ни средней величиной, ни медианой.

Хрестоматийным примером мультимодального (а в конкретном случае — бимодального) распределения является та самая "средняя температура по больнице", равная 36,6 градусам. Частотная диаграмма данной ситуации может выглядеть как-то так, но основное в ней то, что выборка обладает двумя максимумами:

-10

При обнаружении мультимодальности выборку следует разделять на несколько соответствующих каждой моде дочерних выборок и анализировать уже их. Об этом мы ещё не раз поговорим позже, кстати, буду рад, если вы подскажете в комментариях темы для следующих статей — так будет больше пользы от этого канала.

Ну а теперь —

Ответы на вопросы

1. Расстояние между точками А и Б не имеет значения, поэтому для наглядности предположим, что оно равно 15 км. Получается, что в одну сторону он шёл 3 часа со скоростью 5 км/ч, в другую — 5 часов со скоростью 3 км/ч. Таким образом он прошёл 30 километров за 8 часов, следовательно, его средняя скорость была равна 3,75 км/ч.

В данном случае средняя скорость рассчитывается по формуле среднего гармонического, которое по определению есть обратная величина к среднему от обратных значений множества:

-11

Для нашего Алёши

-12

2. Как и в предыдущем примере, изначальная стоимость акций не имеет никакого значения, допустим, что она равна 100 тысячам рублей. После первого года стоимость акций будет 110 тысячам рублей, и уже эта стоимость будет новой стартовой точкой, 30% от которой будут равны 33 тысячам рублей, и в конце года стоимость акций составит 143 тысяч рублей. Чтобы получить такую стоимость акций в течение 2 лет, средняя доходность должна быть равна 19,58% (доходность 20% даст стоимость 144 тысячи). Для таких случаев, чтобы не впасть в ошибку, следует использовать среднее геометрическое, которое рассчитывается по следующей формуле:

-13

В данном случае действовать следует так:

-14

3. Следует особенно осторожно применять среднее арифметическое, когда имеешь дело с какими-то циклично меняющимися переменными, например, с азимутом. Движение небесной сферы происходит от меньших значений к большим, при этом при пересечении небесного меридиана значение азимута "обнуляется", и 360 градусов превращается в 0. Таким образом азимут, равный 359 градусам можно представить как -1, а так как вторая точка равна 1 градусу, их среднее значение равно нулю.

Благодарю вас за то, что дочитали статью до конца. Оглавление канала "Иллюзия рациональности" вы можете найти по следующей ссылке.

#меры центральной тенденции #среднее арифметическое #медиана #мода #показатели центра распределения