Никто уже не считает по формулам на листочке в клеточку — для этого есть программы, в которых достаточно нажать на правильную кнопку и понять: есть различие или нет. А если нет, то как сделать, чтобы было.
Знать, что такое p [пэ], и как им можно манипулировать — это, пожалуй, главное, что нужно понимать в статистике.
Разберём на примере межгрупповых сравнений.
Что такое «р»?
Значение p (probability — вероятность) показывает уровень статистической значимости, или вероятность ошибки отклонения от нулевой гипотезы (H₀).
Нулевая гипотеза (H₀) подразумевает, что сравниваемые группы заведомо не отличаются друг от друга. Чем больше вероятность отвергнуть нулевую гипотезу, тем ниже p. В свою очередь, чем ниже p, тем значимее статистическая закономерность.
Пример. Вы сравниваете две группы с количественными величинами (рост, масса и т.п.). Значение p, равное 5% (p = 0,05), говорит о том, что при дальнейшем измерении следующее новое событие с 95% вероятностью будет отличаться от значений в другой группе. Если p = 0,01 (1%), то вероятность различий будет составлять 99%. Таким образом, чем ниже p, тем более значимы межгрупповые статистические различия.
*Как понять p при корреляциях, читайте тут.
Всегда ли должно быть p < 0,05?
Откуда взялось пороговое p < 0,05
Традиционно в биомедицинских исследованиях используется пороговое значение p < 0,05 (5%). Это пороговое значение было взято интуитивно с потолка и со временем растиражировано в биологии и медицине как стандарт. Изначально не было обоснованных причин для "p < 0,05". И это самое важное, что нужно осмыслить для глубокого понимания статистики.
"p < 0,05" или "α = 0,05"
Более правильно говорить об "уровне статистической значимости", которое обозначают буквой "α". Например, если в качестве порогового значения принято p < 0,05, то α = 0,05 (см. рис. выше).
Однако, чтобы не вводить дополнительные буквенные обозначения нередко запись "уровень статистической значимости составлял 5% (α = 0,05)" заменяют на слова "межгрупповые различия определяли при пороговом уровне ошибки отклонения от нулевой гипотезы менее 5% (p < 0,05)".
Когда можно и нужно изменить пороговое значение до "p < 0,50" или "p < 0,001"?
В отдельных случаях к пороговому значению p относятся более осознанно. И его значение пересматривают.
Например, если лекарство от редкой болезни должно помогать хотя бы в 50% случаев, то требования к пороговому значению можно существенно смягчить до "p < 0,50" (50%).
Противоположный пример — медицинская генетика. Там нередко за пороговое значение принимают более жёсткий уровень "p < 0,001", чтобы исключить случайные совпадения.
В материалах и методах всегда указывайте пороговое значение для p. При этом если вы используете в качестве порогового значения не "p < 0,05" (5%), то обязательно поясните то, чем вызвана такая необходимость.
Как понизить p и выявить статистически значимые различия?
Помните, p тем меньше, чем
- больше объём выборки (n),
- больше разница средних (М),
- меньше стандартное отклонение (SD).
Отсюда вредные, но очень полезные советы
Один мудрец сказал: "статистика — женщина блудливая и можно заставить её работать на себя". Часто это можно сделать более-менее законно и вот некоторые из таких трюков.
* Советы представлены в порядке нарастания их пакостности: чем дальше, тем сомнительнее их применение.
1. Увеличиваем количество выборки (n) за счёт повторных измерений
Очевидно, что нужно исследовать как можно больше объектов. Но что делать, если их достаточного количества не набралось (редкие случае, ограниченное время исследования, ошибка планирования), а различия показать уж очень хочется? Для этого нужно получить как можно больше измерений с каждого.
Представьте, в процессе исследования вы получили p = 0,06 при α = 0,05, то есть вы не можете констатировать наличие статистически значимой закономерности, но p близко к пороговому. В этом случае не стоит отчаиваться: просто выполните несколько повторных измерений, и вы, скорее всего, увидите, как снизится p до нужного уровня. На рисунке ниже видно, что дополнительные 2 измерения позволили преодолеть пороговую отметку значимости "p < 0,05" (при неизменных основных характеристиках дисперсии: средних и стандартных отклонений).
Для применения этой хитрости вы можете повторно производить одни и те же измерения на одном и том же объекте несколько раз, используя одинаковые или разные методики и инструменты либо разных наблюдателей. В этом случае в измерения будут заведомо заложены погрешности метода, но при этом увеличится объём выборки.
Например, в исследовании в каждой группе участвовало 10 пациентов. Каждому забрали материал на гистологическое исследование из 2 зон. Из каждого образца получили 3 среза. В свою очередь, на каждом срезе сделали фотографии в 5 случайных полях зрения, которые независимо друг от друга измерили 3 лаборанта. Итого, нехитрым умножением (10 × 2 × 3 × 5 × 3= 900) получаем n = 900. Из 5 объектов получить 900 измерений — неплохо!
Однако помните, что всему есть предел. Исходных объектов исследования должно быть адекватное количество. Так, в обычном клиническом исследовании формировать группу из менее 14 пациентов — явно недопустимо!
О том, как рассчитать минимальное количество объектов исследования напишу позже. Также не терпится рассказать, почему номограмма Альтмана, как и многие другие распространённые методики — проделки сатаны и к экспериментальной биологии или медицине не применимы.
2. Сокращаем стандартное отклонение (SD)
Чем меньше разброс полученных значений, тем лучше. Иными словами чем короче усы на диаграмме и меньше их пересечение, тем выраженней различие.
Для этого, по-хорошему, с самого начала должны быть выбраны наиболее стандартизированные и точные методики с минимальной погрешностью.
Однако достаточно частая картина, когда у исследователя кривые руки, в десятичных дробях при постановке запятых допущены ошибки, а измерительный прибор имел дичайшую погрешность. Исследование завершено, а различия выявить нужно! Как?
Нужно проредить ваши данные и избавиться от совсем больших и малых значений. И для этого тоже есть достаточно законные способы.
Уберите выбросы
Выбросами принято считать значения, превышающие 2-3 доверительных интервала или 1,5 интерквартильные ширины. Их можно выявить визуально, как на рисунках ниже, или с помощью специального критерия Граббса, или теста ROUT.
*Какие виды графиков лучше читайте тут.
Наиболее часто выбросы связаны с человеческим фактором: ошибка записи числа (напечатал лишний нолик или не в том месте поставил запятую в десятичной дроби), загрязнил пробу, измерил в дюймах вместо сантиметров. В таком случае ошибку удаётся понять и исправить без ущерба для объёма выборки. В противном случае выброс исключают или удаляют.
Уберите верхнее и нижнее значение
Очевидно, если убрать из дисперсии верхнее и нижнее значение, то доверительный интервал (SD) уменьшится. Методика называется "Олимпийское среднее" и вполне привычно используется в фигурном катании, для исключения влияния на средний балл оценок самых лояльных и злых судей. Главное, нужно знать не запрещён ли явным образом этот метод для вашей сферы.
Например, он явным образом не запрещён для анализа МТТ и ПЦР при научном эксперименте со множеством повторов, в то время как при клиническом исследовании с дуплетами и триплетами метод "Олимпийского среднего" просто нельзя применить. Читайте статьи и мануалы к приборам, чтобы точно убедиться когда нельзя, а когда можно.
Есть и другой похожий метод, когда удаляют множество крайних значений — усечение среднего или трункация (анг. trimmed mean или trunkated men). Смысл его в том, что равномерно удаляют от 5% до 25% крайних значений.
Метод очень популярен в экономике для "причёсывания" графиков, но медики и биологи относятся к нему с подозрением. На небольшой выборке его можно использовать с большой осторожностью: уменьшив выборку, можно получить противоположный эффект.
Попробуйте непараметрические методы
Вместо сравнения средних (t-тест или тест Бонферрони) используйте сравнение медиан (тест Манна-Уитни или Данна). Непараметрические ранговые и или медианные методы больше защищены от выбросов и часто показывают лучший результат.
Можно делать и наоборот. Смысл в том, чтобы сначала подобрать тест, который лучше выявит различие, а потом уже обосновывать его целесообразность.
*Что такое медиана и когда она лучше среднего смотрите здесь.
В умышленности такого подхода нельзя признаваться, но это всё ещё "в рамках правового поля". Всё-таки выбранный тест и методику его применения вы описываете.
Поменяйте двусторонний способ определения p на односторонний
Иногда их называют одно- или двупроходными или одно- или двунаправленными (зависит от переводчика и контекста).
Как показывает практика, мало кому из биологов и медиков понятно что это, чем и можно воспользоваться.
Смысл в том, что односторонний тест (one-tiled) обычно показывает вдвое меньшее значение p, чем двусторонний (two-tiled). Грубо говоря, при нём анализируется только одна половина распределения или осуществляется перебор данных только с одной стороны распределения.
Помните, двусторонний тест является стандартом по умолчанию. Поэтому использование одностороннего теста должно быть обязательно указано в материалах и методах.
Заключение
Теперь вы знаете что такое p и как "причесать" свои данные.
Самое главное, не увлекайтесь всеми трюками сразу, иначе от истины в вашем исследовании мало что останется. Будьте честны и добросовестны! И только при острой необходимости — когда горит отчёт или совсем петля — пользуйтесь этими трюками.
Также полученные знания можно использовать при экспертизе и анализе литературы, чтобы понимать чему стоит верить полностью, а что следует понимать не так однозначно.
Успехов!
Опубликовано 10.04.2024, UPD (1) 11.03.24
***
Ещё больше статей на канале!
Не стесняйтесь комментировать и задавать вопросы. Ставьте лайк и подписывайтесь!
Жду предложений по новым статьям!
© Васильев А.В.
Копирование и распространение без согласия автора не допускается.