Найти в Дзене
Art of Data&Statistics

Реальный пример проверки одной выборки на нормальность всеми способами, реализованными в программе Statistica

У нас есть данные о количестве лейкоцитов (в виде n *10(степень9)/л крови) у 50 пациентов с перитонитом. Необходимо установить, распределены ли эти данные по нормальному закону. Лейкоциты - это белые кровяные тельца. Образуются в красном костном мозге. Функция лейкоцитов заключается в защите организма от чужеродных веществ и микробов. Другими словами — это иммунитет. Нормальные показатели лейкоцитов находятся в пределах от 4 до 9*10(степень9)/л крови) как у мужчин, так и у женщин. Уровень лейкоцитов повышается при: инфекциях и воспалениях; аллергиях; лейкозах; состояниях после острого кровотечения, гемолиза. !При перитоните обычно наблюдаются значительное повышение числа лейкоцитов! Уровень лейкоцитов снижается при: патологиях костного мозга; инфекциях (грипп, краснуха, корь и т.д.); генетических аномалиях иммунитета; гиперфункции селезенки. Существует достаточно большое число способов проверить, соответствуют ли анализируемые данные нормальному распределению. Рассмотрим четыре подход
Оглавление

У нас есть данные о количестве лейкоцитов (в виде n *10(степень9)/л крови) у 50 пациентов с перитонитом. Необходимо установить, распределены ли эти данные по нормальному закону.

-2
Лейкоциты - это белые кровяные тельца. Образуются в красном костном мозге. Функция лейкоцитов заключается в защите организма от чужеродных веществ и микробов. Другими словами — это иммунитет.
Нормальные показатели лейкоцитов находятся в пределах от 4 до 9*10(степень9)/л крови) как у мужчин, так и у женщин.
Уровень лейкоцитов повышается при: инфекциях и воспалениях; аллергиях; лейкозах; состояниях после острого кровотечения, гемолиза.
!При перитоните обычно наблюдаются значительное повышение числа лейкоцитов!
Уровень лейкоцитов снижается при: патологиях костного мозга; инфекциях (грипп, краснуха, корь и т.д.); генетических аномалиях иммунитета; гиперфункции селезенки.

Существует достаточно большое число способов проверить, соответствуют ли анализируемые данные нормальному распределению. Рассмотрим четыре подхода, реализованные в программе Statistica.

Подход 1. Описательные статистики

Получим значения описательных статистик и посмотрим, насколько они типичны для нормального распределения.

Для этого откроем модуль Descriptive Statistics (Описательные статистики), который находится здесь: Statistics > Basic Statistics/Tables.

-3

Перед нами открывается диалоговое окно Descriptive statistics, по умолчанию открытое на вкладке Quick (Быстро). Перейдём на вкладку Advanced (Расширенные настройки), и там отметим галочками те показатели, которые могут нам понадобиться для оценки распределения:

-4

Что у нас получилось:

-5
  • Количество значений переменной, Valid N = 50.
  • Сумма значений, Sum = 886, 5000.

Это - самые общие характеристики выборки.

  • Среднее арифметическое, Mean = 17,73000.
  • Медиана, Median = 17,25000.

Медиана и среднее арифметическое совпадают при идеальном нормальном распределении. В нашем примере значения среднего и медианы - очень близки.

  • Дисперсия, Variance = 15,43031
  • Стандартное отклонение, Std.dev. = 3,929143
  • Стандартная ошибка среднего значения, Standard error = 0,555523

По определению, нормальное распределение - это тип распределения, при котором большинство значений сосредоточено около среднего значения. Дисперсия и стандартное отклонение σ (сигма) сами по себе не могут определить тип распределения, но они, вместе со средним значением, определяют форму кривой нормального распределения (гауссианы). Разумеется, если по другим показателям мы установили, что распределение подчиняется нормальному закону. Зная среднее значение и стандартное отклонение распределения, можно устанавливать контрольные границы: доверительный интервал для среднего значения (confidence - 95%, 16,61363, и + 95%, 18,84637), и принимать решения на их основе.

  • Коэффициент асимметрии, Skewness = 0,145799
  • Стандартная ошибка коэффициента асимметрии, Std.Еrr.Skewness = 0,336601
  • Коэффициент эксцесса, Kurtosis = 0,078772
  • Стандартная ошибка коэффициента эксцесса, Std.Еrr.Kurtosis = 0,661908

Принято считать, что если Ассиметрия не превышает значение своей ошибки более, чем в 2 - 3 раза, то распределение в целом симметрично (соответствует нормальному). То же самое относится к Эксцессу: если он не превышает значение своей ошибки более, чем в 2 - 3 раза, то распределение соответствует нормальному.

Ассиметрия в нашем примере близка к нулю. Ошибка данного показателя составляет превышает саму Ассиметрию. Это даёт нам основания говорить о том, что распределение укладывается в нормальное. Значение Эксцесса также близко к нулю, и это говорит о том, что наше распределение достаточно не плосковершинное, и не островершинное. Ошибка этого показателя (0,661908) превышает сам Эксцесс, что указывает на нормальность распределения.

Подход 2. Критерии согласия для проверки соответствия анализируемых данных закону нормального распределения

Зайдём повторно в модуль Descriptive Statistics.

-6

Только в этот раз откроем вкладку Normality и в поле Distribution (Распределение) проставим галочки напротив всех опций: Normal expected frequencies, Kolmogorov-Smirnov and Lilliefors test for normality и Shapiro-Wilk’s W test:

-7

Нажмём кнопку Frequency tables (Таблицы частот):

-8

Перед нами - таблица частот для переменной Лейкоциты. Программа автоматически отметила интервалы значения нашей переменной с шагом 5: 5 - 10, 10 - 15 и т.д. Границы интервалов установлены (также автоматически) от 5 до 30. Условные обозначения : Count, Cumulative count, Percent of valid, Cumul % of valid, % of all cases, Cumulative % of All, Expected count, Cumulative Expected, Percent Expected и Cumulative % Expected - подробно описаны здесь.

Результаты тестов на нормальность располагаются в заголовке таблицы:

1) статистика Колмогорова-Смирнова d = 0,08274. Чем меньше величина этой статистики, тем ближе распределение случайной величины к нормальному. Вероятность нулевой гипотезы (р) более 0,20. Таким образом, мы можем принять нулевую гипотезу о том, что распределение исследуемой величины Лейкоциты статистически значимо не отличается от нормального. Таким же образом здесь интерпретируется Lilliefors test.

2) статистика Shapiro-Wilk's W = 0,98885, р = 0,91574. Результаты W-теста Шапиро-Уилка также говорят о том, что мы можем принять нулевую гипотезу и утверждать, что переменная Лейкоциты распределена по нормальному закону.

Подход 3. Графический метод оценки нормальности распределения.

Графический метод является наиболее простым способом проверки на нормальность распределения. Теперь нажмём кнопку Histograms (Гистограммы) справа от Frequency tables. На экран будет выведен график с гистограммой распределения значений признака и ожидаемую нормальную кривую - у неё те же средняя арифметическая и стандартное отклонение, что и в анализируемой совокупности:

-9

Результаты тестов на нормальность располагаются в заголовке этого графика.

Чтобы продолжить графический анализ, зайдём повторно в модуль Descriptive Statistics.

-10

Только в этот раз откроем вкладку Prob. & Scatterplots (Вероятностные графики и диаграммы рассеяния), следующую за Normality. С ее помощью можно построить двух- и трехмерные графики зависимости между двумя переменными, а также проверить данные на нормальность с использованием т.н. «вероятностной бумаги» (Normal probability plot).

-11

Для этого следует нажать на кнопку Normal probability plot (Нормальный вероятностный график).

  • Нормальный вероятностный график называют ещё "графиком на нормальной вероятностной бумаге", т.к. его можно построить вручную с использованием специальной миллиметровой бумаги. Однако программа Statistica, как и другие пакеты статистических программ, существенно облегчают пользователям задачу и рисуют Нормальный вероятностный график автоматически:
-12

Примерный алгоритм построения Нормального вероятностного графика:

(1) сначала все значения переменной упорядочиваются. И каждому из 50 наших значений Лейкоцитов мы присваиваем ранг: от наименьшего (у нас это - 8,3*10(степень9)/л) к наибольшему (у нас это - 27*10(степень9)/л).

(2) Берётся стандартизованное нормальное распределение. По этому распределению для рангов рассчитываются значения (z), которые затем откладываются по оси Y графика. z представляет собой квантиль определённого уровня. Собственно, сам Нормальный вероятностный график поэтому очень часто называют графиком Q-Q. Итак, по оси Y у нас и находятся квантили z определённого уровня q. Значению "0" на оси Y, как нетрудно догадаться, соответствует значение медианы (17,15) на оси Х. Отрицательные значения z - меньше медианы, положительные - больше. Квантильные точки 1 и -1 примерно соответствуют 1σ; 2 и -2 - 2σ; , 3 и -3 - 3σ. Сколько значений находится в пределах одного стандартного отклонения σ?

(3) Если наблюдаемые значения (откладываемые по оси X) распределены нормально, то все значения на графике должны попасть на прямую линию. Если значения не являются нормально распределенными, они будут отклоняться от линии. Также на графике Q-Q можно легко обнаружить выбросы.

В нашем случае значения на графике в целом укладываются на прямую.

В программе Statistica реализованы ещё два типа графиков.

  • Half-normal probability plot (Полунормальный вероятностный график) использует в анализе только положительную часть нормальной кривой:
-13
  • Detrended normal probability plot (Нормальный вероятностный график с исключенным трендом) удаляют из данных линейный тренд:
-14

Подход 4. Критерий хи-квадрат Пирсона

Специальный модуль для проверки соответствия данных тому или иному закону распределения случайных величин - Distribution Fitting (Подгонка распределений). Запустим его из главного меню Statistics > Distribution Fitting:

-15

Как видно на приведенном рисунке, в программе Statistica можно сравнивать эмпирические распределения со многими теоретическими законами распределения случайных величин.

-16

Поскольку мы хотим проверить, подчиняются ли данные о количестве лейкоцитов пациентов нормальному распределению, в списке непрерывных распределений (Continuous distributions) выбираем Normal и жмём ОК. Далее появится еще одно окно, где необходимо указать программе, какую именно переменную мы хотим проанализировать. Переменная для анализа задается путем нажатия кнопки Variables. Остальные настройки можно оставить неизменными.

-17
  • Нажав на кнопку Summary. Observed and expected distribution, мы получаем по сути таблицу частот. В таблице присутствуют следующие столбцы: Observed Frequency, Cumulative Observed, Percent Observed, Cumul % Observed, Expected Frequency, Cumulative Expected, Percent Expected и Cumulative % Expected, Observed-Expected. Обозначения этих столбцов аналогичны тем, которые - здесь. Только вместо Count здесь используется обозначение Frequency. И последний столбец, Observed-Expected, это разность столбцов Observed Frequency и Expected Frequency. В заголовке таблицы находится результат расчёта критерия хи-квадрат Пирсона:
-18

Данный тест проверяет нулевую гипотезу о том, что наблюдаемое распределение признака не отличается от теоретически ожидаемого нормального распределения. Поскольку вероятность справедливости этой гипотезы: p, оказалась больше 0.05 (0.45340), мы принимаем, что она действительно верна - Chi-square test = 2,62343, p = 0.45340.

  • Нажав на кнопку Plot of observed and expected distributions (Изобразить наблюдаемое и ожидаемое распределения), получим гистограмму распределения данных о количестве лейкоцитов и колоколообразную красную кривую, соответствующую ожидаемому нормальному распределению (у него те же средняя арифметическая и стандартное отклонение, что и в анализируемой совокупности).
-19

В целом распределение значений анализируемого признака на рисунке совпадает с нормальным (столбики гистограммы примерно выстраиваются в колоколообразную фигуру). Это заключение, основанное на визуальном анализе распределения, имеет и более строгое подтверждение в виде результатов теста хи-квадрат (Chi-square test в верхней части графика).