Продолжим исследовать вкладку Advanced (Расширенные настройки) модуля Basic Statistics - Descriptive Statistics. Вкладка Advanced используется для расчёта подробного перечня показателей Описательной статистики. Первый столбик, рассмотренный в одной из предыдущих статей, содержит показатели, характеризующие типичное состояние выборки: количество значений переменной (Valid N), среднее арифметическое (Mean), сумма значений (Sum) - просто сумма всех значений переменной, медиана (Median), мода (Mode) и частота моды (Frequency of Mode), а также среднее геометрическое (Geom. mean, Хg ) и среднее гармоническое (Harm. mean, Хh ). Все вместе эти показатели называются "Меры местоположения или центрированности" ("Location, valid N"), или меры центральной тенденции. Но, кроме типичности, нас довольно часто интересует, насколько разнообразной может быть данная выборка! И в этом нам помогает второй столбик вкладки Advanced модуля Basic Statistics - Descriptive Statistics.
Второй столбик представляет собой "Меры разброса" ("Variations, moments").
Что значит каждый из представленных здесь показателей Описательной статистики?
2. Дисперсию (Variance) и 1. Стандартное отклонение (Standard deviation) имеет смысл рассмотреть вместе. Это - популярнейшие и важнейшие показатели, применяемые для оценки разброса значений. В качестве примера рассмотрим знакомую нам таблицу с гемограммами 28 пациентов, и рассмотрим, что такое Standard deviation для переменной "Эритроциты" (столбец Е).
Среднее арифметическое (Mean, Хср) "Эритроцитов" составляет 3,807143, как уже было рассчитано.
Если мы отнимем от показателя эритроцитов, соответствующему, допустим, пациенту №2 (Х2 = 3,9) это среднее значение, получится Х2 - Х = 3,9 - 3,807143 = 0,092857. Разность между текущим и средним значением выборки называется отклонением. Разность между значением эритроцитов пациента №1 (Х1 = 3,4) и средним составит Х1 - Хср = 3,4 - 3,807143 = -0,407143. Это значение отклонения - а) больше по абсолютному значению, но б) оно отрицательно. Очевидно, что чем сильнее текущее значение будет отличаться от среднего значения выборки, тем больше будет это самое отклонение. Если у нас много текущих значений с сильным отклонением, то мы можем сделать вывод о том, что значения выборки отличаются высоким разнообразием.
Чтобы понять, какое отклонение является для нашей выборки наиболее типичным, мы можем просто найти среднее значение по этим отклонениям. То есть, сложить все отклонения и поделить их на количество значений переменной (Valid N). Пациентов у нас 28: N = 28. Но здесь мы столкнёмся с такой проблемой: если посчитать сумму отклонений, она непременно будет стремится к нулю, или равна нулю, так как отклонения от среднего есть и вверх (как у пациента №2), и вниз (как у пациента №1), и в конечном счёте уравновешивают друг друга. В нашем примере сумма отклонений составит 0,00000000014. Способом избавиться от отрицательных величин отклонений является возведение в квадрат. Если отклонение для каждого значения переменной (для каждого пациента в нашем примере) возвести в квадрат, сложить отклонения для всех значений переменных (в примере с "эритроцитами" эта сумма будет 0,06852) и поделить на Valid N, мы получим то, что называется дисперсией (Variance).
То же в виде формулы :
В исследование включается не вся популяция (генеральная совокупность), а лишь её часть - наша выборка. Большинство членов популяции оказываются за рамками нашего исследования. И поскольку мы включаем в наш расчет лишь часть популяции, то мы привносим некоторую неточность в расчет статистик, и в итоге получаем не точные значения, а лишь ОЦЕНКИ этих параметров. Такие оценки называют выборочными оценками, потому что они рассчитаны по конкретной выборке и в некоторой степени зависят от ее особенностей. Если мы повторим исследование, наберем другую выборку из этой же популяции, и снова рассчитаем, допустим, среднее, дисперсию и стандартное отклонение, то эти новые рассчитанные значения будут отличаться от первых, хотя, по сути, мы рассчитали то же самое. Поэтому необходимо запомнить, что существует две формулы дисперсии: одна для генеральной совокупности, другая – для выборки. В знаменателе первой всегда стоит точное число объёма выборки, а у второй – объём выборки минус 1.
Формула для дисперсии выборки и то, как это работает для нашего примера с "Эритроцитами" (значение можно взять в таблице, которая приведена выше):
Квадрат в формуле дисперсии как генеральной совокупности, так и выборки, делает её очень неудобной для оценки разнообразия значений переменных данной выборки Например, если мы измеряли длину в сантиметрах, то дисперсия имеет размерность в квадратных сантиметрах.
Поэтому для удобства использования дисперсию берут под корень, получая по итогу показатель, называемый стандартным отклонением (Standard deviation), если речь идёт о корне из дисперсии по выборке. Корень из дисперсии генеральной совокупности называется среднеквадратическим отклонением. И среднеквадратичное, и стандартное отклонение, имеют размерность рассматриваемой переменной.
Именно стандартное отклонение (Standard deviation) рассчитывается для реальных исследований в большинстве случаев, поэтому далее по тексту, если речь идёт об отклонении, то имеется в виду стандартное без уточнений о том, что оно бывает ещё и среднеквадратическим.
!Чем выше дисперсия или стандартное отклонение, тем сильнее разбросаны значения переменной относительно среднего!
3. Стандартная ошибка среднего значения (St. err. of mean; Standard error of mean). Стандартная ошибка, как и стандартное отклонение, часто используется в качестве меры разброса переменной. Технически это стандартное отклонение, деленное на квадратный корень из объема выборки.
Нетрудно заметить, что чем больше знаменатель в данной формуле, тем меньше получается её значение. Из этого следует крайне важный вывод о том, что с увеличением объема выборки ошибка среднего стремится к нулю.
Чтобы оценить, насколько выборочное среднее арифметическое отличается от генерального среднего, вычисляется ошибка среднего арифметического. Иными словами, мы оцениваем, насколько репрезентативна наша выборка по отношению к генеральной совокупности по тому, насколько совпадает выборочное среднее с генеральным средним. Поэтому стандартную ошибку среднего значения часто называют ошибкой репрезентативности.
В медицинских и научных публикациях принято приводить окончательный результат в виде: (М±m).
4. Доверительный интервал для среднего значения (95% confidence limits of mean). После того, как мы рассмотрели дисперсию со стандартным отклонением и разобрали понятие средней ошибки, понятие доверительного интервала становится простым и интуитивно понятным.
Доверительный интервал - это интервал значений вокруг оценки, где с данным уровнем доверия находится среднее генеральной совокупности.
Если мы установим больший уровень доверия, то интервал станет шире, поэтому возрастает вероятность, с которой он "накрывает" неизвестное среднее генеральной совокупности. И наоборот, меньший уровень доверия уменьшает вероятность того, что среднее генеральной совокупности окажется в данном ряду.
Ширина доверительного интервала зависит от объема выборки и от разброса данных. Увеличение размера выборки делает оценку среднего более надежной. Увеличение разброса наблюдаемых значений уменьшает надежность оценки. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. Если это предположение не выполнено, то оценка может оказаться плохой, особенно для малых выборок. Но: при увеличении объема выборки, скажем, до 100 или более, качество оценки улучшается и без предположения нормальности выборки.
В биологии и медицине принято приводить доверительный интервал в подавляющем большинстве случаев - 95%. При автоматическом расчёте этого показателя он по умолчанию находится именно на этом уровне. Однако, например, в фармакологических исследованиях его принято сдвигать на более либеральный уровень 90%.
5. Асимметрия (Skewness), или коэффициент асимметрии, является мерой несимметричности распределения. Очевидно, что любое нормальное распределение строго симметрично относительно своего центра, следовательно, его асимметрия равна нулю.
Если этот коэффициент значительно отличается от 0, распределение является асимметричным, т.е. несимметричным. Это проще всего проиллюстрировать, опираясь на "старую" формулу для расчёта коэффициента асимметрии, которую предложил английский статистик Карл Пирсон.
- Правосторонняя асимметрия: x ̅ > Мо (соответственно, Ах > 0), тогда справа (в сторону больших значений) находится значительное количество вариант, и поэтому средняя смещена вправо:
- Левосторонняя асимметрия: x ̅ < Мо (соответственно, Ах < 0), тогда значительное количество вариант находится слева (в сторону меньших значений), и поэтому средняя смещена влево:
Недостаток формулы Пирсона состоит в том, что она описывает лишь центральную часть распределения и практически не учитывает «периферию». Имеется более "современный" вариант формулы для рассчёта коэффициента ассиметрии:
Центральный эмпирический момент третьего порядка - μ3, в свою очередь, вычисляется по формуле (сразу подставим цифры из примера с "Эритроцитами"):
6. Стандартная ошибка коэффициента асимметрии (Std.Еrr.Skewness, Standard error of Skewness)
Этот критерий определяет допустимую степень отклонения эмпирических значений асимметрии от нулевых значений, соответствующих нормальному распределению.
Принято считать, что если Ассиметрия превышает значение своей ошибки более, чем в три раза (в два раза для больших выборок), то ассиметрия существенна, то есть, распределение несимметрично (отличается от нормального). Верно и обратное, если Ассиметрия не превышает значение своей ошибки более, чем в 2 - 3 раза, то распределение в целом симметрично (соответствует нормальному).
7. Эксцесс (Kurtosis), или коэффициент эксцесса измеряет остроту пика распределения.
Эксцесс является показателем крутости (островершинности) нашего ряда данных по сравнению с нормальным распределением. Чем больше абсолютная величина эксцесса, тем существеннее распределение отличается от нормального.
- Если эксцесс положителен, то это говорит о скоплении значений признака в центральной зоне ряда распределения, т.е. о преимущественном появлении в зоне средней величины.
- Если эксцесс отрицателен - то это означает, что значения признака не концентрируются в центральной части ряда, а достаточно равномерно рассеяны по всему диапазону от минимального до максимального значения.
Коэффициент эксцесса вычисляется по формуле:
Центральный эмпирический момент четвёртого порядка - μ4, вычисляется по формуле (сразу подставим цифры из примера с "Эритроцитами"):
6. Стандартная ошибка коэффициента эксцесса (Std.Еrr.Kurtosis, Standard error of Kurtosis)
Здесь всё, в принципе, по аналогии со стандартной ошибкой коэффициента асимметрии...
Std.Еrr.Kurtosis определяет допустимую степень отклонения эксцесса от нуля.
Принято считать, что если Эксцесс превышает значение своей ошибки более, чем в три раза (в два раза для больших выборок), то распределение отличается от нормального. Верно и обратное, если Эксцесс не превышает значение своей ошибки более, чем в 2 - 3 раза, то распределение соответствует нормальному.
Теперь рассчитаем все описанные показатели автоматически для переменной "Эритроциты". Отметим их галочками во вкладке Advanced, нажмём кнопку Summary, и получим таблицу.
Что мы можем сказать, опираясь на неё? Дисперсия составляет 0,07 (значение округляем до сотых), стандартное отклонение - 0,27. Значения небольшие, поэтому можно сделать вывод о том, что значения пациентов разбросаны недалеко от среднего. Стандартная ошибка среднего значения составляет 0,05. Если записать окончательный результат в виде (М±m), то это будет 3,81 ± 0,05. m показывает, какая ошибка в среднем допускается, если использовать вместо генерального среднего выборочное среднее. В нашем примере это 0,05, то есть мы допускаем, что значения среднего арифметического числа эритроцитов могут лежать в диапазоне от 3,76 до 3,86. Границы доверительного интервала, нижняя и верхняя, с уровнем p = 0,95 равны 3,70 и 3,91. Из этого можно заключить, что интервал с данными рассчитанными границами накрывает среднее генеральной совокупности с вероятностью 95%. Ассиметрия составляет -0,259261, она несколько левосторонняя (отрицательное значение). Ошибка данного показателя составляет 0,440524, что превышает саму Ассиметрию. Это даёт нам основания говорить о том, что распределение укладывается в нормальное. Значение эксцесса равно -0,258905, и это говорит о том, что наше распределение несколько плосковершинное, и разброс значений значителен. Однако ошибка этого показателя - 0,858329, она больше значения Эксцесса, что указывает на нормальность распределения.