Найти в Дзене
Art of Data&Statistics

U-тест Манна-Уитни (Mann-Whitney U Test)

U-тест Манна-Уитни (Mann-Whitney U Test) – это непараметрический статистический тест, который используют для сравнения выраженности показателей в двух независимых выборках. Этот тест позволяет определить, насколько вероятно, что значения в одной выборке систематически больше или меньше, чем значения в другой. U-тест был предложен в 1945 году Фрэнком Уилкоксоном (F. Wilcoxon). В 1947 году он был существенно переработан и расширен Х. Б.Манном (H. B. Mann) и Д. Р.Уитни (D. R. Whitney), по именам которых и называется - Mann-Whitney U Test. Как и большинство других непараметрических методов, тест Манна-Уитни использует приём ранжирования. Для этого: анализируемые выборки (Xi = X1, X2, X3...) и (Yi = Y1, Y2, Y3...) объединяют в единую выборку Xi + Yi. И по отношению к этой единой выборке применяют ранжирование: каждому значению присваивается ранг, начиная с наименьшего значения (ранг 1) и заканчивая наибольшим (ранг j-ый). Нулевая гипотеза Н0: различия в выборках не являются статистически д

U-тест Манна-Уитни (Mann-Whitney U Test) – это непараметрический статистический тест, который используют для сравнения выраженности показателей в двух независимых выборках. Этот тест позволяет определить, насколько вероятно, что значения в одной выборке систематически больше или меньше, чем значения в другой.

U-тест был предложен в 1945 году Фрэнком Уилкоксоном (F. Wilcoxon). В 1947 году он был существенно переработан и расширен Х. Б.Манном (H. B. Mann) и Д. Р.Уитни (D. R. Whitney), по именам которых и называется - Mann-Whitney U Test.

Условия и ограничения использования теста Манна-Уитни:

  • Для использования U-теста не требуется нормального распределения данных. Это делает его подходящим для анализа данных, которые имеют асимметричное распределение или содержат выбросы;
  • Сравнение двух независимых выборок. В этом смысле U-тест часто называют непараметрическим аналогом t-критерия Стьюдента;
  • Объем групп не должен быть строго одинаковым, но не должен сильно различаться;
  • Тип данных, которые подлежат анализу U-тестом: количественные (непрерывные и относительные), из качественных – только данные, измеренные в порядковой шкале.

Как и большинство других непараметрических методов, тест Манна-Уитни использует приём ранжирования. Для этого: анализируемые выборки (Xi = X1, X2, X3...) и (Yi = Y1, Y2, Y3...) объединяют в единую выборку Xi + Yi. И по отношению к этой единой выборке применяют ранжирование: каждому значению присваивается ранг, начиная с наименьшего значения (ранг 1) и заканчивая наибольшим (ранг j-ый).

Нулевая гипотеза Н0: различия в выборках не являются статистически достоверными и носят случайный характер (𝑋̅i = 𝑌̅i);

Альтернативная гипотеза Н1: различия двух исследуемых выборок являются статистически достоверными (𝑋̅ i− 𝑌̅ i ≠ 0).

Рассмотрим тот же пример, что и рассматривали в критерии серий Вальда—Вольфовица.

Пример: требуется выявить различия в количестве глиальных клеток в головном мозге крыс линии Lewis и Long-Evans.

-2

1. Количество глиальных клеток у крыс линии Lewis – это выборка Xi, у крыс линии Long-Evans - выборка Xi и Yi. Расположим две выборки друг под другом:

-3

2. Составим объединенную ранговую таблицу, расположив во второй строке значения вариант из обеих выборок в порядке возрастания. Каждому значению присвоим порядковый номер и ранг:

-4

Подсчитаем отдельно сумму рангов для первой (Xi) и второй (Yi) выборок. Это будет 19 и 72 соответственно.

Определить наибольшую из двух ранговых сумм (Т). В нашем случае Т = 72.

3. Приступим к расчёту эмпирического значения U-критерия (U) по формуле:

, где 𝑛𝑥 и 𝑛𝑦 – объемы выборок; 𝑛 – объем выборки, имеющей большую ранговую сумму; 𝑇– большая сумма рангов из выборок 𝑋i и 𝑌i.
, где 𝑛𝑥 и 𝑛𝑦 – объемы выборок; 𝑛 – объем выборки, имеющей большую ранговую сумму; 𝑇– большая сумма рангов из выборок 𝑋i и 𝑌i.

4. Определим по таблице для избранного уровня статистической значимости (𝑝 < 0.05) критическое значение (Uкр) при заданной численности групп (𝑛𝑥 = 5 и 𝑛𝑦 = 8).

-6

Наше Uкр = 8.

5. Принимаем решение о достоверности различий, наблюдаемых между уровнем признака в рассматриваемых выборках, принимают на основании сравнения полученных эмпирического (U) и критического (Uкр) значений критерия Манна-Уитни:

  • Гипотезу 𝐻0 принимают, если 𝑈>𝑈кр;
  • Гипотезу 𝐻1 принимают (гипотезу 𝐻0 отвергают), если 𝑈≤𝑈кр.

В нашем примере: U = 4 < Uкр = 8. Мы принимаем гипотезу 𝐻1 о том, что различия исследуемых выборок Xi и Yi являются статистически достоверными.

*6. В принципе, на U-критерии можно было бы и остановиться. Но есть деталь: для больших выборок U тоже не всегда работает нормальное распределение. В этом случае рассчитывают стандартизированное значение z:

, где mU и σU — среднее значение и стандартное отклонение U, приблизительно равное стандартному нормальному отклонению.
, где mU и σU — среднее значение и стандартное отклонение U, приблизительно равное стандартному нормальному отклонению.

Рассчитывают показатели mU и σU по формулам:

-8

**В нашем примере отсутствовала ситуация повторяющихся рангов. Если в рангах есть повторяющиеся значения, σ следует скорректировать.