Найти тему
Art of Data&Statistics

Критерии множественных сравнений (post-hoc анализ, апостериорные сравнения), используемые после проведения дисперсионного анализа (ANOVA)

Дисперсионный анализ (ANOVA) даёт возможность выявить статистическую значимость влияния регулируемого фактора на изучаемый признак (показатель). Допустим, что мы обнаружили статистически значимые отличия, но вот ответить на вопрос: "какие именно группы отличаются друг от друга?", мы не можем. И здесь нам на помощь приходят так называемые процедуры апостериорных сравнений, или post-hoc анализ. Дословный перевод словосочетания "post-hoc" - "последующий", что плавно намекает на то, что post-hoc анализ проводится после применения первичных статистических методов для более тщательного изучения статистически значимых взаимосвязей.

Мы не имеем права инициировать процедуру апостериорных сравнений, если ANOVA показала правильность нулевой гипотезы (сравниваемые группы абсолютно не различаются между собой).

Апостериорные сравнения (post-hoc) представляют собой попарные сравнения изучаемых групп для обнаружения различий между ними.

Пример (использовался при расчёте однофакторной ANOVA). Проводили исследование влияния соединений А и В на уровень АД крыс линии SHR. Контрольная группа - крысы, которым вводили эквивалентный объём физ. раствора. Уровни среднего АД после ежедневного введения препаратов в течение 1 месяца составляли:

  • в I группе (контроль, n1 = 5) — 185, 187, 190, 193, 195 мм рт.ст.;
  • во II группе (в-во А, n2 = 7) — 165, 168, 172, 173, 175, 175, 178 мм рт.ст.;
  • в III группе (в-во В, n3 = 6) — 180, 182, 183, 185, 186, 189 мм рт.ст.

Результаты дисперсионного анализа : фактор "вещество" оказывает статистически значимое действие на уровень АД крыс линии SHR - (F(2, 15) = 32,26, p < 0.05). Оценка внутригрупповой дисперсии (SSW), полученная в ходе дисперсионного анализа, SSW = 239, следовательно, стандартное отклонение (se2) составит 15,9. Степень свободы для внутригрупповой дисперсии: ve = N − m = 15. Здесь мы принимаем альтернативную гипотезу о том, что регулируемый фактор ("вещество") оказывает значимое воздействие
на изучаемый признак (уровень АД). Вот только какая именно?

-2

В программе STATISTICA реализованы многие разновидности тестов для множественных сравнений. У каждого из них есть условия применения, но любой «авторский» тест корректирует наблюдаемый уровень значимости с учетом того факта, что проводятся множественные сравнения. Исключением из этого, пожалуй, является только самый первый тест Fisher LSD.

-3

1. Тест Фишера на наименьшее значимое различие (Least Significant Difference method, Fisher LSD method)

Примечателен тем, что является первым методом множественных сравнений, рекомендованным самим автором ANOVA Фишером (1935) для апостериорных сравнений различий между группами. Метод LSD - это по сути проведение серии попарных сравнений при помощи t-теста. В котором в качестве оценки дисперсии используется оценка внутригрупповой дисперсии (SSW).

Главный недостаток метода наименьшего значимого различия: не предпринимается никаких попыток скорректировать наблюдаемый уровень значимости для множественных сравнений! Вместо этого автор предложил использовать уровень статистической значимости, поделенный на 2: р/2 (то есть не 0,05, а р = 0,025).

Пример: проведём оценку среднего по критерию Стьюдента, применяя метод наименьшего значимого различия, для уровней АД крыс линии SHR из нашего примера.

Сравним контрольную группу с животными, получавшими препарат А:

где АД1• – средний уровень АД крыс контрольной группы; АД2• - средний уровень АД у животных, получавших препарат А; se 2 - остаточная дисперсия; n1 - объём контрольной выборки; n2 - объём выборки крыс получавших препарат А.
где АД1• – средний уровень АД крыс контрольной группы; АД2• - средний уровень АД у животных, получавших препарат А; se 2 - остаточная дисперсия; n1 - объём контрольной выборки; n2 - объём выборки крыс получавших препарат А.

Таким образом, нулевая гипотеза для препарата А может быть отвергнута и сделан вывод о том, что АД у животных, получавших препарат А, статистически значимо меньше, чем у крыс контрольной группы.

Проведём такие же расчёты для сравнения контроля с животными, получавшими препарат B:

где АД1• – средний уровень АД крыс контрольной группы; АД3• - средний уровень АД у животных, получавших препарат В; se 2 - остаточная дисперсия; n1 - объём контрольной выборки; n3 - объём выборки крыс получавших препарат В.
где АД1• – средний уровень АД крыс контрольной группы; АД3• - средний уровень АД у животных, получавших препарат В; se 2 - остаточная дисперсия; n1 - объём контрольной выборки; n3 - объём выборки крыс получавших препарат В.

Таким образом, для препарата B принимается нулевая гипотеза. Уровень АД у животных, получавших препарат В не отличается от уровня АД крыс контрольной группы.

Теперь рассчитаем t-критерий для сравнения средних АД у животных, получавших препарат А и B:

где АД2• - средний уровень АД у животных, получавших препарат А; АД3• - средний уровень АД у животных, получавших препарат В; se 2 - остаточная дисперсия; n2 - объём выборки крыс получавших препарат А; n3 - объём выборки крыс получавших препарат В.
где АД2• - средний уровень АД у животных, получавших препарат А; АД3• - средний уровень АД у животных, получавших препарат В; se 2 - остаточная дисперсия; n2 - объём выборки крыс получавших препарат А; n3 - объём выборки крыс получавших препарат В.

Итак, АД у животных, получавших препарат А, статистически значимо меньше не только по сравнению с крысами контрольной группы, но и с крысами, получавшими препарат В.

В настоящее время тест Фишера на LSD практически не используют для практических расчётов. Причина очевидна: вследствие того, что р-уровень никак не корректируется для множественных сравнений, использование данного метода сопряжено с повышенным риском ошибки первого рода - обнаружению различий между группами в ситуации, когда таких различий на самом деле нет или они несущественны.

Ошибка первого рода (𝛼-ошибка, ложноположительное заключение) — ситуация, когда отвергнута верная нулевая гипотеза (об отсутствии связи между явлениями или искомого эффекта).
Ошибка первого рода (𝛼-ошибка, ложноположительное заключение) — ситуация, когда отвергнута верная нулевая гипотеза (об отсутствии связи между явлениями или искомого эффекта).

2. Критерий Стьюдента с поправкой Бонферрони.

Вообще говоря, многие методы post-hoc анализа основаны на критерии Стьюдента, но при этом они обычно учитывают, что сравнивается более одной пары выборок.
Критерий Стьюдента с поправкой Бонферрони основан на применении неравенства Бонферрони, согласно которому если
k раз применить критерий с уровнем значимости р, то вероятность хотя бы в одном случае найти различие там, где его нет (ошибка I рода) не превышает произведения k на р: α ≤ kр (где α - вероятность ошибки I рода хотя бы в одном сравнении). Иными словами, если мы хотим обеспечить вероятность ошибки I рода р, то в каждом
сравнении необходимо принять уровень значимости
α/k.

Пример: при трёхкратном сравнении, для того чтобы вероятность ошибки I рода была не более 0,05, надо использовать уровень значимости 0,05/3 = 0,017.

Если t(набл.) больше t при степени свободы 15 и р = 0,017, то нулевая гипотеза отвергается.
Если t(набл.) больше t при степени свободы 15 и р = 0,017, то нулевая гипотеза отвергается.

Оценка и интерпретация результатов, обработанных с учётом поправки Бонферрони, совпадает с обработкой по методу Фишера на наименьшее значимое различие (см. пт. 1). Нулевая гипотеза для препарата А отвергается: АД у животных, получавших препарат А, статистически значимо меньше, чем у крыс контрольной группы и крыс, принимавших препарат В. Для препарата B, напротив, принимается нулевая гипотеза. Уровень АД у животных, получавших препарат В не отличается от уровня АД крыс контрольной группы.

Поправка Бонферрони хорошо контролирует ошибку1 рода, но является очень консервативной и приводит к повышению вероятности ошибки 2 рода (вероятности принятия решения об отсутствии различий там, где они на самом деле есть). Поправка Бонферрони хорошо работает, если число сравнений относительно невелико. Если оно превышает 6, метод становится маломощным (слишком «строгим»), и даже весьма большие различия становятся незначимыми.

Оши́бка второ́го ро́да (β-ошибка, ложноотрицательное заключение) — ситуация, когда принята неверная нулевая гипотеза.
Оши́бка второ́го ро́да (β-ошибка, ложноотрицательное заключение) — ситуация, когда принята неверная нулевая гипотеза.

!LSD – критерий и критерий Бонферрони занимают как бы самые крайние позиции в ряду критериев множественных сравнений по вероятности получить ошибку 1 и 2 рода соответственно!

Среди остальных критериев множественного сравнения средних можно выделить критерии множественных сравнений Шеффе и Тьюки.

3. В методе множественных сравнений Шеффе (Scheffe) для проверки гипотезы равенства средних используется F-статистика:

где i, j — номера выборок.
где i, j — номера выборок.

Нулевую гипотезу (между группами нет никаких различий) отвергают, если:

где m - число исследуемых групп; N − m = ve = 15 - степень свободы для внутригрупповой дисперсии.
где m - число исследуемых групп; N − m = ve = 15 - степень свободы для внутригрупповой дисперсии.

Заметим, что в отличии от LSD критерия, где использование t-критерия предполагает одну имеющуюся степень свободы, в критерии Шеффе используется F-статистика, и предполагается, что число градаций фактора (степеней свободы) на 1 меньше. Это делает данный критерий более "либеральным".

Пример: рассчитаем по методу Шеффе различия средних уровней АД крыс линии SHR из примера с введением вещества А и В.

-12

-13

-14

Итак, нулевая гипотеза для препарата А может быть отвергнута и мы делаем вывод о том, что АД у животных, получавших препарат А, статистически значимо меньше, чем у крыс контрольной группы и животных, получавших препарат В. Значения АД у животных, получавших препарат В, здесь - также значимо меньше по сравнению с контролем.

Апостериорный тест Шеффе является наиболее гибким, и даёт самые широкие доверительные интервалы. Это означает, что он имеет самую низкую статистическую мощность и самую низкую способность обнаруживать истинные различия между группами. Метод Шеффе завышает вероятность ошибки 1 рода, то есть вероятность принятия решения о наличии различий там, где их нет. Необходимо учитывать то, что критерий Шеффе является весьма полезным в тех случаях, когда имеется подозрение о неравенстве дисперсий выборок между собой. Критерий Шеффе также можно использовать независимо от того, равны ли размеры групповой выборки.

4. В методе множественных сравнений Тьюки, Tukey (или достоверно значимой разности – HSD) используется q-статистика:

где i, j — номера выборок, расположенных по нарастанию средних, i < j.
где i, j — номера выборок, расположенных по нарастанию средних, i < j.

Вычисленное значение q сравнивают с критическими точками уровня распределения стьюдентизированного размаха с ν1 = k и ν2 = n - k степенями свободы. Если наблюдаемое значение статистики tR набл. ≥ tR кр., где tR кр. - критическая точка распределения стьюдентизированного размаха уровня р (как и в большинстве случаев, р = 0,05) с числом степеней свободы ν1 = k и ν2 = n - k , то нулевая гипотеза отклоняется.

Пример: проведём попарное сравнение всех выборок методом множественных сравнений Тьюки для уровней АД крыс линии SHR из нашего примера.

-16

Таким образом, нулевая гипотеза при сравнении средних АД у животных, получавших препарат А и В, отвергается. Средний уровень АД у животных, получавших препарат А, статистически значимо меньше по сравнению как с крысами контрольной группы, так и с крысами, получавшими препарат В. Средний уровень АД у животных с препаратом В статистически значимо не отличается от контрольной группы.

Критерий Тьюки считается достаточно либеральным (хотя и в меньшей степени, чем критерий Шеффе), и при его использовании необходимо учитывать вероятность появления ошибки 1 рода. Учитывая все преимущества HSD-теста Тьюки, множественные сравнения результатов реальных исследований часто проводят именно этим методом. Однако использовать критерий Тьюки рекомендуют, если объём выборок примерно одинаковый.

Если объемы выборок различаются сильно, то следует использовать 5. Unequal N HSD - критерий Тьюки для неравных выборок (критерий Spjovoll-Stoline).

Далее мы рассматриваем группу множественных сравнений "Range tests (multistage tests)". Это так называемые тесты диапазона, которые ранжируют групповые значения и вычисляют значение диапазона. К ним относятся Newman-Keuls и Duncan`s.

6. Метод множественных сравнений Ньюмена–Кейлса (Newman-Keuls).

В методе Newman-Keuls используется та же q-статистика, что и в критерии Тьюки (см. пт.4), однако по другому определяются критические точки.

Полученные в ходе ANOVA средние упорядочивают по нарастанию и вычисляют значения критерия Ньюмена–Кейлса для всех пар этих средних. Вычисленное значение q сравнивают с соответствующим критическим значением при заданном уровне статистической значимости (как и в большинстве случаев, р = 0,05). Но вместо степени свободы для межгрупповой дисперсии мы в рамках данного метода оперируем величиной l, которая называется интервалом сравнения. Его определяют следующим образом: при сравнении средних, стоящих на i-м и j-м месте в упорядоченном ряду:

l = j i + 1.

Так, при сравнении 7-го и 2-го членов этого ряда l = 7 − 2 + 1 = 6.

Пример: Упорядочим средние арифметические выборок по нарастанию: АД(А) = 172 мм рт.ст.; АД(В) = 184 мм рт.ст.; АД(К) = 190 мм рт.ст. (К — контроль).

-17

Сравним полученные в результате расчётов данные с показателями таблицы при числе степеней свободы ve = 15 и lAK = 3, lAB = 2, lBK = 2:

qAK = 10,903 > q(15; 3; 0,01) = 4,836;

qAB = 7,650 > q 15; 2; 0,01) = 4,168;

qBK = 3,514 > q (15; 2; 0,05) = 3,014.

Таким образом, во всех трёх случаях мы отвергаем нулевую гипотезу и принимаем альтернативную (при сравнении выборок АК и АВ р < 0,01; выборок ВК р < 0,05). Иными словами, интерпретация теста здесь будет примерно как в методе Шеффе (см.пт. 3): АД у животных, получавших препарат А, статистически значимо меньше, чем у крыс контрольной группы и животных, получавших препарат В. Значения АД у крыс, получавших препарат В, также значимо меньше по сравнению с контрольными животными.

7. Множественные сравнения при помощи рангового критерия Дункана (Duncan`s).

В методе Duncan`s используется та же q-статистика, что и в критерии Тьюки и Ньюмена–Кейлса (см. пт. 4 и 5), но критические точки определяются другим способом. но в качестве критических точек берутся точки D-распределения Дункана c ν1 = r и ν2 = n - k степенями свободы, где r - число средних расположенных между двумя средними, подлежащими сравнению, включая их. Если наблюдаемое значение статистики больше критического, то нулевая гипотеза отклоняется.

Пример: средние арифметические выборок, упорядоченные по нарастанию: АД(А) = 172 мм рт.ст.; АД(В) = 184 мм рт.ст.; АД(К) = 190 мм рт.ст. (К — контроль).

Сравним полученные в результате расчётов данные с показателями таблицы при числе степеней свободы ve = 15 и rAK = 3, rAB = 2, rBK = 2:

qAK = 10,903 > q(15; 3; 0,01) = 4,836;

qAB = 7,650 > q 15; 2; 0,01) = 4,168;

qBK = 3,514 > q (15; 2; 0,05) = 3,014.

Полученные здесь данные и интерпретация полученных результатов - в точности как в пт.6 с расчётом критерия Ньюмена–Кейлса).

Последний рассматриваемый критерий, Dunnett, относится к группе множественных сравнений, которые предполагают только попарное сравнение экспериментальных групп с контролем (Comparisons with a Control Group (CG)).

8. Множественные сравнения (всех - с контрольной группой) при помощи критерия Даннета (Dunnett).

Для сравнения нескольких опытных выборок с контрольной группой может быть применен критерий Даннета, который, опять-таки, является вариантом критерия Ньюмена-Кейлса.

Рассчитывается показатель Даннета следующим образом:

 i – номер выборки; сontr - контрольная выборка.
i – номер выборки; сontr - контрольная выборка.

Сравнение контрольной выборки с остальными начинают с группы, наиболее отличной от контроля. Рассчитанный показатель q′ сравнивают с соответствующим критическим значением с c ν1 = k и ν2 = n - k степенями свободы. Если наблюдаемое значение статистики больше табличного критического, то нулевая гипотеза отклоняется.

Пример: проведём оценку среднего, применяя метод Даннета, для уровней АД крыс линии SHR из нашего примера.

Сравним контрольную группу с животными, получавшими препарат А и В. Остаточная дисперсия — 15,9, число степеней свободы — 15; интервал сравнения - l = 2 ; q′ кр.(15, 2, 0,05) = 3,017. Рассчитаем показатели критерия Даннета:

-19

Интерпретация результатов: средний уровень АД у животных, получавших препарат А, статистически значимо меньше по сравнению с крысами контрольной группы. Средний уровень АД у животных с препаратом В статистически значимо не отличается от контрольной группы.