Найти в Дзене
Analytera

Осторожнее с тестом Фридмана!

#сложно #статметоды Как правило, альтернативой параметрическим критериям проверки гипотез (таким, как t-тесты или однофакторный дисперсионный анализ ANOVA) являются непараметрические ранговые критерии (например, U- критерий Манна-Уитни, критерий Уилкоксона или Краскел-Уоллиса). Но можно пойти по-другому – использовать ранговые преобразования, а затем применить к преобразованным данным параметрические тесты. Преимущество такого подхода проявляется в ситуациях, когда широко используемые непараметрические ранговые критерии работают очень плохо, а подход с ранговым преобразованием работает довольно хорошо. Коновер и Иман (1981) показывают, что для выборок среднего и большого размера параметрические тесты, примененные к данным после рангового преобразования, имеют свойства наиболее известных непараметрических ранговых критериев (например, коэффициента корреляции Спирмена, U- критерия Манна-Уитни, критерия Уилкоксона). В свою очередь непараметрические ранговые критерии имеют преимуществ

#сложно #статметоды

Как правило, альтернативой параметрическим критериям проверки гипотез (таким, как t-тесты или однофакторный дисперсионный анализ ANOVA) являются непараметрические ранговые критерии (например, U- критерий Манна-Уитни, критерий Уилкоксона или Краскел-Уоллиса). Но можно пойти по-другому – использовать ранговые преобразования, а затем применить к преобразованным данным параметрические тесты. Преимущество такого подхода проявляется в ситуациях, когда широко используемые непараметрические ранговые критерии работают очень плохо, а подход с ранговым преобразованием работает довольно хорошо. Коновер и Иман (1981) показывают, что для выборок среднего и большого размера параметрические тесты, примененные к данным после рангового преобразования, имеют свойства наиболее известных непараметрических ранговых критериев (например, коэффициента корреляции Спирмена, U- критерия Манна-Уитни, критерия Уилкоксона). В свою очередь непараметрические ранговые критерии имеют преимущества, когда размеры выборок малы, но в случае большого количества связанных рангов этого преимущества может и не быть.

Потенциальные ловушки непараметрических ранговых тестов хорошо иллюстрируются на примере теста Фридмана (и связанных с ним тестов). Попробуем объяснить проблему здесь.

Почему тест Фридмана является самозванцем ...

Всем известен аналог парного t-критерия - ранговый парный критерий Уилкоксона (Вилкоксона). Он предполагает вычисление абсолютной разницы между парными наблюдениями, ранжирование этих разниц с возвращением рангу исходного знака. Полученные ранги затем используются в перестановочном тесте, который, если нет связанных рангов, дает точную вероятность получения наблюдаемой суммы рангов, если парные наблюдения попали в категории A или B случайно. Основной принцип (вычисление разностей) здесь аналогичен парному t-критерию Стьюдента.

Например, имеются результаты полученных от четырех объектов парных измерений (A и B):

Критерий Фридмана обычно считается ранговым эквивалентом однофакторного дисперсионного анализа ANOVA с повторными наблюдениями, так же, как критерий Уилкоксона (Вилкоксона) является ранговым эквивалентом парного t-критерия Стьюдента. Но это ошибочное представление. Чтобы понять почему, рассмотрим три повторных измерения (A, B и C) для двух объектов. Вот их оценки:

-2

Вот ранги исходных оценок (в соответствии с критерием Фридмана):

-3

Оценки по тесту Фридмана зависят только от порядка оценок каждого объекта, они полностью игнорируют различия между оценками. Это резко отличается от теста Уилкоксона (Вилкоксона), в котором сохраняется информация о различиях, т.к. ранжируются разности. Zimmerman и Zumbo (1993) обсуждают это различие в процедурах и показывают, что тест Фридмана (разработанный известным экономистом и чемпионом «свободного рынка» Милтоном Фридманом) на самом деле является не формой ANOVA, а расширением критерия знаков. Это самозванец.

Критерий знаков имеет низкую мощность по сравнению с парным t-критерием или ранговым парным критерием Уилкоксона (Вилкоксона). Действительно, асимптотическая относительная эффективность критерия Фридмана по отношению к ANOVA составляет 0,955 J/(J+1), где J - число повторных измерений (см. Zimmerman & Zumbo, 1993). Т.е. для случая J = 3 эффективность равна примерно 0,72, а для J = 4 - 0,76, что является существенным снижением мощности по сравнению с ANOVA. Это оценка для больших выборок, но для малых выборок критерий знаков и критерий Фридмана также должны иметь значительно меньшую мощность, потому что они, по сути, выбрасывают информацию. Иногда (в распределениях с тяжелыми хвостами) критерий знаков более эффективен, чем критерий Уилкоксона (Вилкоксона), но это не относится к тесту Фридмана. Таким образом, в случае нарушения предпосылок использования однофакторного дисперсионного анализа ANOVA с повторениями гораздо большую мощность обеспечивает подход, предусматривающий предварительное ранжирование исходных данных (т.е. понижение шкалы до порядковой), затем применение к полученным рангам критерия ANOVA.

Выполнение однофакторного дисперсионного анализа ANOVA с повторениями на ранжированных данных с преобразованием ранга в R

Версия рангового преобразования ANOVA относительно проста в настройке. Основное препятствие заключается в том, что оценки должны быть получены путем обработки всех оценок нескольких повторных измерений как единой выборки (где n – число участников, J- число повторных измерений). Для такого ранжирования проще всего использовать Excel. Затем можно применить процедуру ANOVA с повторениями в любом ПО.

Но можно с самого начала использовать R - в этом случае все данные будут, как правило, находиться в одном столбце или в любом векторе.

Следующий код R запускает сначала тест Фридмана, затем однофакторный ANOVA с повторными измерениями и затем версию ANOVA с ранговым преобразованием. Используются данные из из превосходных ресурсов демонстрационных примеров UCLA R. В этом примере измеряемый признак - puls, time - это фактор повторных измерений, а id - идентификатор субъекта.

-4

Будет правильным указать на несколько особенностей кода R. Тест Фридмана встроен в R и может принимать формулу или матричный ввод. Здесь для ввода использована формула и указан фрейм, который содержит демонстрационные данные. Повторные измерения ANOVA могут выполняться различными способами, здесь используется многофакторный ANOVA с использованием пакета nlme (который работать и при несбалансированном дизайне). Как видите, единственное различие между кодом для обычной ANOVA и версией для ANOVA после ранговых преобразований состоит в том, что до анализа количественная переменная pulse DV ранжируется.

Другие преимущества подхода

Применение параметрических критериев к ранжированным данным, как правило, более универсальный подход, чем использование ранговых непараметрических критериев. Например, программное обеспечение ANOVA часто имеет опции для тестирования контрастов или апостериорного анализа с коррекцией на множественные сравнения. Несмотря на то, что эти процедуры предназначены для анализа исходных данных, некоторые из них носят очень общий характер и могут быть непосредственно применены к ранжированным данным, особенно такие мощные модифицированные критерии Бонферрони, как процедуры Хохберга или Вестфолла. Такие линейные контрасты, как критерий Джонкхиера для независимые выборок или L-критерий Пейджа для повторных измерений, также можно использовать для предварительно ранжированных данных. Применение t-критерия Уэлча к ранжированным данным имеет преимущество по сравнению с широко применяемым U-критерием Манна-Уитни, потому что критерий Уэлча более устойчив к неоднородности дисперсий в случае выборок неравного объема.

(Использовали Baguley, 2012)