Найти в Дзене
Art of Data&Statistics

Тест Колмогорова-Смирнова (Kolmogorov-Smirnov test) для проверки соответствия анализируемых данных закону нормального распределения

Во вкладке Normality (Проверка на нормальность) модуля Descriptive statistics программы Statisticа есть опции Normal expected frequencies, Kolmogorov-Smirnov & Lilliefors test for normality и Shapiro-Wilk's W test.

Теперь рассмотрим Kolmogorov-Smirnov & Lilliefors test for normality (Критерий Колмогорова-Смирнова с поправкой Лиллиефорса).

Тест Колмогорова – Смирнова предназначен для сопоставления двух распределений: а) эмпирического с теоретическим (в нашем случае - нормальным); б) одного эмпирического распределения с другим эмпирическим распределением.

Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.

-2

!Критерий требует, чтобы выборка была достаточно большой. При сопоставлении двух эмпирических распределений необходимо, чтобы n(1,2) ≥ 50. Сопоставление эмпирического распределения с теоретическим иногда допускается при n > 5!

Н0: различия между двумя распределениями недостоверны (судя по точке максимального накопленного расхождения между ними) (выборка распределена нормально);

Н1: различия между двумя распределениями достоверны (судя по точке максимального накопленного расхождения между ними), то есть, данные не распределены нормально.

Рассмотрим, как работает Kolmogorov-Smirnov test на двух примерах.

А) Сопоставление эмпирического распределения с теоретическим.

Пример: в выборке здоровых лиц мужского пола, студентов технических и военно-технических вузов в возрасте от 19 и до 22 лет, средний возраст ‒ 20 лет, проводился тест Люшера в 8-цветном варианте. Установлено, что жёлтый цвет испытуемыми чаще предпочитается, чем отвергается. Можно ли утверждать, что распределение жёлтого цвета по 8 позициям у здоровых испытуемых отличается от равномерного распределения? Рассмотрим таблицу эмпирической частоты попадания жёлтого цвета на каждую из восьми позиций (n = 102).

Таблица эмпирической частоты попадания жёлтого цвета на каждую из 8 позиций, предусмотренных в тесте Люшера. У 24 человек жёлтый цвет занимает первое место, у 25 человек - второе, у 13 человек - третье и т.д.
Таблица эмпирической частоты попадания жёлтого цвета на каждую из 8 позиций, предусмотренных в тесте Люшера. У 24 человек жёлтый цвет занимает первое место, у 25 человек - второе, у 13 человек - третье и т.д.

Приступим к расчётам, постепенно заполняя результатами таблицу расчёта критерия λ Колмогорова-Смирнова.

Шаг 1. Сперва перепишем те данные, которыми мы располагаем из условия. Внесём в первый столбец таблицы наименования (номера) разрядов (j). Их 8. Во второй столбец внесём соответствующие каждому разряду эмпирические частоты (fj ‒ частота попадания жёлтого цвета на j –ую позицию).

Шаг 2. Рассчитаем эмпирические частности f* по формуле: f*j = fj / n, (n ‒ общее количество наблюдений; n = 102). Внесём эмпирические частности в третий столбец.

Шаг 3. В четвёртом столбце находятся накопленные эмпирические частности Σf*. Они получаются следующим образом: для j = 1 накопленная эмпирическая частность будет равна эмпирической частости, то есть, 0,2358 . Для j = 2 накопленная эмпирическая частность будет представлять собой сумму эмпирических частностей первого и второго разрядов: Σf*1+2 = 0,235 + 0,147 = 0,382 и т. д.

Шаг 4. Пятый столбец заполняем результатами, рассчитанными по формуле: f* теор = 1 / j, но она – накопленная. Так, для 1-го разряда теоретическая частность равна: f* теор = 1 / 8 = 0,125. Для j = 2 накопленная теоретическая частность представляет собой сумму теоретических частностей первого и второго: f* теор 1+2 = 0,125 + 0,125 = 0,250 и т. д.

Шаг 5. В шестом столбце находится разность накопленных теоретических и эмпирических частностей. Нам необходимо определить, какая из абсолютных величин разности является наибольшей: в данном случае это 0,135, то есть, искомый критерий Колмогорова-Смирнова, λэмп = 0,135.

Таблица расчёта критерия λ Колмогорова-Смирнова.
Таблица расчёта критерия λ Колмогорова-Смирнова.

Шаг 6. По таблице критических значений для критерия Колмогорова ‒ Смирнова определим критические значения критерия λкрит:

-5

Для нашего примера:

-6

Шаг 7. Делаем вывод: λэмп = 0,135 и λэмп = λкрит при α = 0,05, тогда принимается гипотеза Н1, и можно сказать, что на уровне значимости 0,05 обнаружены отличия распределения жёлтого цвета по восьми позициям от нормального распределения. Однако при α = 0,01, λэмп = 0,135 < λкрит = 0,161. То есть, на уровне значимости 0,01 принимается нулевая гипотеза Н0 - отличий от нормального распределения не обнаружено.

Б) Сопоставление одного эмпирического распределения с другим.

Пример: сопоставлялись два эмпирических распределения - данные, полученные в предыдущем примере и данные обследования X. Кларом 800 испытуемых (Klar H., 1974, р. 67). Результаты X. Клара представлены в таблице:

Таблица эмпирической частоты попадания жёлтого цвета на каждую из 8 позиций, предусмотренных в тесте Люшера.
Таблица эмпирической частоты попадания жёлтого цвета на каждую из 8 позиций, предусмотренных в тесте Люшера.

Приступим к расчётам, заполняя результатами таблицу расчёта критерия λ Колмогорова-Смирнова.

Шаг 1. Перепишем те данные, которыми мы располагаем из условия. Внесём в первый столбец таблицы наименования (номера) разрядов (j = 8). Внесём соответствующие каждому разряду эмпирические частоты попадания жёлтого цвета на j-ую позицию из отечественной выборки (второй столбец) и выборки Х. Клара (третий столбец).

Шаг 2. Рассчитаем эмпирические частности f* по формуле: f*j = fj / n, где n = 102 для отечественной выборки, и n = 800 для выборки Х. Клара). Внесём эмпирические частности в четвёртый (отечественная выборка) и пятый (выборка Х. Клара) столбец.

Шаг 3. Накопленные эмпирические частности Σf* занимают шестой (отечественная выборка) и седьмой (выборка Х. Клара) столбец.

Шаг 4. В восьмом столбце находится разность накопленных эмпирических частностей двух выборок - отечественной и Х. Клара. Из абсолютных величин разности наибольшей является та, которая относится ко второму разряду и составляет 0,118; Ϫ(max) или d(max) = 0,118.

Таблица расчёта критерия λ Колмогорова-Смирнова.
Таблица расчёта критерия λ Колмогорова-Смирнова.

Шаг 5. Критерий λ Колмогорова-Смирнова для двух эмпирических распределений считаем по формуле:

-9

Шаг 6. По таблице критических значений для критерия Колмогорова ‒ Смирнова определим критические значения критерия λкрит:

-10

Шаг 7. Делаем вывод: λэмп = 1,12 < λкрит = 1,36, и на уровне значимости 0,05 принимается нулевая гипотеза Н0, то есть эмпирические распределения жёлтого цвета по 8 позициям в отечественной выборке и выборке X. Клара совпадают.

В то же время, и отечественная выборка, и выборка Х. Клара несколько по-разному соотносятся с нормальным распределением: у Х. Клара отличий от нормального распределения не обнаружено, а в отечественной выборке различия обнаружены (с надёжностью 95%). Однако если принять надёжность за 99%, то и в отечественной выборке отличий от нормального распределения не обнаружено.