U-критерий Манна-Уитни (Mann-Whitney U test) — это непараметрический статистический тест, используемый для сравнения двух независимых выборок. Он позволяет определить, различаются ли два распределения или, другими словами, насколько вероятно, что значения в одной выборке систематически больше или меньше, чем значения в другой.
Когда используется U-критерий Манна-Уитни?
- Когда данные не соответствуют нормальному распределению: В отличие от параметрических тестов, таких как t-критерий Стьюдента, U-критерий Манна-Уитни не требует, чтобы данные были нормально распределены. Это делает его подходящим для анализа данных, которые имеют асимметричное распределение или содержат выбросы.
- Когда данные измерены в порядковой шкале: U-критерий Манна-Уитни может использоваться для анализа данных, измеренных в порядковой шкале (например, ранги, оценки по шкале Лайкерта).
- Когда необходимо сравнить две независимые группы: U-критерий Манна-Уитни предназначен для сравнения двух групп, в которых участники не связаны друг с другом (например, две разные группы пациентов, получивших разное лечение).
Логика работы U-критерия Манна-Уитни:
- Объединение выборок: Обе выборки объединяются в одну общую выборку.
- Ранжирование: Каждому значению в общей выборке присваивается ранг, начиная с наименьшего значения (ранг 1) и заканчивая наибольшим. Если есть одинаковые значения (связанные ранги), каждому из них присваивается средний ранг.
- Расчет суммы рангов: Для каждой из двух исходных выборок рассчитывается сумма рангов.
- Расчет U-статистики: На основе сумм рангов вычисляется U-статистика для каждой выборки. U-статистика представляет собой количество раз, когда значение из одной выборки предшествует значению из другой выборки в общем ранжированном списке. Формулы для расчета U-статистики:
- где:n1 и n2 — размеры выборок 1 и 2 соответственно.
R1 и R2 — суммы рангов для выборок 1 и 2 соответственно. - Выбор наименьшего U: Выбирается наименьшее из двух значений U-статистики (U1 и U2). Это значение используется для определения статистической значимости.
- Определение статистической значимости: Полученное значение U сравнивается с критическим значением из таблицы распределения Манна-Уитни (или используется для расчета p-value). Если U меньше критического значения (или p-value меньше уровня значимости, обычно 0.05), то делается вывод о статистически значимых различиях между двумя выборками.
Гипотезы:
- Нулевая гипотеза (H0): Распределения в двух выборках идентичны (нет систематических различий между группами).
- Альтернативная гипотеза (H1): Распределения в двух выборках различаются (существует систематическая разница между группами).
Интерпретация результатов:
- Статистически значимый результат (p < 0.05): Отвергаем нулевую гипотезу и делаем вывод о том, что существует статистически значимая разница между двумя группами.
- Статистически незначимый результат (p >= 0.05): Не отвергаем нулевую гипотезу и делаем вывод о том, что нет достаточных доказательств для утверждения о различиях между двумя группами.
Пример:
Допустим, вы хотите сравнить эффективность двух разных методов обучения (A и B) на двух группах студентов. Вы измеряете результаты обучения (например, баллы за тест) для каждой группы. Поскольку данные не соответствуют нормальному распределению, вы используете U-критерий Манна-Уитни.
После выполнения расчетов вы получаете значение U = 25 и p-value = 0.02. Поскольку p < 0.05, вы отвергаете нулевую гипотезу и делаете вывод о том, что существует статистически значимая разница в эффективности между двумя методами обучения.
Преимущества U-критерия Манна-Уитни:
- Не требует нормального распределения данных.
- Подходит для порядковых данных.
- Прост в использовании и интерпретации.
Недостатки U-критерия Манна-Уитни:
- Менее мощный, чем параметрические тесты (например, t-критерий Стьюдента), если данные нормально распределены.
- Может быть сложно интерпретировать результаты, если есть много связанных рангов.
Расчет U-критерия Манна-Уитни вручную - довольно трудоемкий процесс, особенно для больших выборок. Поэтому обычно используют статистические пакеты, такие как SPSS, R, Python (с библиотеками scipy или statsmodels) или онлайн-калькуляторы для проведения этого теста.
В целом, U-критерий Манна-Уитни — это полезный инструмент для сравнения двух независимых выборок, особенно когда данные не соответствуют нормальному распределению или измерены в порядковой шкале.