Критерий Колмогорова-Смирнова (K-S тест) — это непараметрический статистический критерий, используемый для проверки:
- Соответствия выборки заданному распределению: Оценивает, насколько хорошо эмпирическое распределение (распределение, полученное на основе выборки) соответствует теоретическому распределению (например, нормальному, экспоненциальному, равномерному).
- Однородности двух выборок: Оценивает, насколько вероятно, что две независимые выборки взяты из одного и того же распределения.
Как работает критерий Колмогорова-Смирнова?
Основная идея K-S теста заключается в сравнении кумулятивных функций распределения (CDF).
- Кумулятивная функция распределения (CDF): Показывает вероятность того, что случайная величина примет значение, меньшее или равное заданному значению.
K-S тест вычисляет максимальное абсолютное отклонение между CDF эмпирического распределения и CDF теоретического распределения (в случае проверки соответствия одному распределению) или между CDF двух эмпирических распределений (в случае проверки однородности двух выборок). Это максимальное отклонение обозначается как статистика K-S (обычно обозначается как D).
Формула статистики K-S (D):
- Для проверки соответствия одному распределению:
D = max |Fₑ(x) - Fₜ(x)|, где:Fₑ(x) – эмпирическая CDF
Fₜ(x) – теоретическая CDF - Для проверки однородности двух выборок:
D = max |F₁(x) - F₂(x)|, где:F₁(x) – эмпирическая CDF первой выборки
F₂(x) – эмпирическая CDF второй выборки
Гипотезы K-S теста:
- H₀ (нулевая гипотеза):Для проверки соответствия одному распределению: Выборка взята из распределения, описываемого теоретической CDF.
Для проверки однородности двух выборок: Обе выборки взяты из одного и того же распределения. - H₁ (альтернативная гипотеза):Для проверки соответствия одному распределению: Выборка не взята из распределения, описываемого теоретической CDF.
Для проверки однородности двух выборок: Выборки взяты из разных распределений.
Принятие решения:
- Вычисляется статистика K-S (D).
- Определяется p-значение (p-value): P-значение показывает вероятность получить наблюдаемое значение статистики K-S (или еще большее) при условии, что нулевая гипотеза верна.
- Сравнивается p-значение с уровнем значимости α (обычно 0.05):Если p-value ≤ α: Отклоняется нулевая гипотеза. Это означает, что есть статистически значимые основания полагать, что выборка не соответствует заданному распределению (в случае проверки соответствия) или что выборки взяты из разных распределений (в случае проверки однородности).
Если p-value > α: Не отклоняется нулевая гипотеза. Это означает, что нет достаточных статистических оснований полагать, что выборка не соответствует заданному распределению (в случае проверки соответствия) или что выборки взяты из разных распределений (в случае проверки однородности).
Преимущества K-S теста:
- Непараметрический: Не требует предположений о виде распределения данных (в отличие от параметрических тестов, таких как t-тест или ANOVA, которые требуют нормального распределения).
- Простота применения: Легко вычисляется и интерпретируется.
- Универсальность: Может использоваться для сравнения выборок с любым типом распределения (непрерывным или дискретным).
Ограничения K-S теста:
- Чувствительность к разнице в форме распределений: K-S тест наиболее чувствителен к различиям в форме распределений (например, сдвиг, асимметрия), чем к различиям в среднем значении или дисперсии.
- Меньшая мощность по сравнению с параметрическими тестами, если данные соответствуют их требованиям: Если данные соответствуют требованиям параметрического теста (например, нормальное распределение), то параметрический тест может быть более мощным (то есть, иметь большую вероятность обнаружить различие, если оно действительно существует).
- Требует непрерывных данных: Для проверки соответствия одному распределению требуется, чтобы теоретическое распределение было непрерывным.
Примеры использования K-S теста:
- Проверка нормальности данных: Оценка, соответствуют ли данные нормальному распределению (например, перед применением параметрического теста).
- Сравнение распределений двух групп: Оценка, взяты ли две группы пациентов из одной и той же популяции с точки зрения распределения определенного показателя (например, артериального давления).
- Оценка эффективности модели: Сравнение распределения предсказанных значений модели с распределением фактических значений.
Реализация K-S теста в программном обеспечении:
K-S тест реализован во многих статистических пакетах, таких как:
- Python (scipy.stats): scipy.stats.kstest() (для проверки соответствия одному распределению) и scipy.stats.ks_2samp() (для проверки однородности двух выборок).
- R (stats): ks.test()
- SPSS: (Analyze -> Nonparametric Tests -> Legacy Dialogs -> 1-Sample K-S или 2-Independent Samples)
В заключение, критерий Колмогорова-Смирнова – это полезный непараметрический инструмент для проверки соответствия выборки заданному распределению и для проверки однородности двух выборок. Он прост в применении и интерпретации, но важно учитывать его ограничения при выборе метода статистического анализа.