Представьте, что Вы пишете диссертацию, где будет доказано, что новый метод лечения лучше стандартного. Кропотливо собрали данные о нескольких сотнях пациентов, поделённых на 2 группы, сравнили по основным результативным признакам и… о, ужас! Различия оказались статистически незначимыми! Получается, что новый метод не лучше, а такой же, как стандартный. Как теперь защищаться с таким результатом?
Похожая, но обратная ситуация заключается в том, что при сравнении групп по тем признакам, где, наоборот, хотелось бы получить сопоставимые значения, обнаруживаются статистически значимые различия (да ещё и не в пользу экспериментальной группы).
Что же делать диссертанту, если p-value противоречит ожидаемым выводам и планам на скорую защиту?
Конечно, в первую очередь, надо проверить, нет ли ошибки в плане исследования, в выполненных расчётах, в выбранных методах анализа.
Но если расчёты корректны, а план работы отвечает поставленным задачам, то исследователю вдруг приходит мысль, что, изменив первоначальный план, можно повлиять на p-value, сделав его таким, каким нужно. Вот такие действия и называются «взлом p-value» - p-hacking.
Основная причина ситуации, когда p-value не соответствует гипотезе - слабость самой гипотезы. Автор думал, что будет так, но вышло все по-другому. Возможно, была плохо изучена литература по изучаемому вопросу. Либо при формировании гипотезы автор опирался на свой собственный опыт, а он оказался недостаточным. Либо исследование проводилось по принципу «соберём все, что можно, а там - будь что будет» и в итоге ничего не получилось.
Почему же в этом случае вместо того, чтобы согласиться с опровержением своей гипотезы и опубликовать исследование как есть, автор прибегает к p-hacking?
🔺Сомнения в возможности опубликовать отрицательный результат.
Будем говорить прямо. Если статью, где гипотеза не подтвердилась, опубликовать можно, то защитить такую диссертацию - значительно труднее. Дело в том, что диссертационная работа предполагает помимо вклада в науку ещё и практическую значимость с внедрением результатов в деятельность учреждений здравоохранения. Что писать в этих разделах при опровержении исходной гипотезы - большой вопрос.
🔺Отсутствие плана исследования.
Многие исследования проводятся авторами самостоятельно, по наитию, без протоколирования и регистрации. Требуемый объём выборки нигде не прописан, оцениваемые показатели определяются по ходу работы… В таких условиях в дизайн исследования могут вноситься любые изменения на любом этапе, так как оформленного плана попросту нет.
🔺Излишнее внимание к p-value.
О, это вожделенное p<0.05! Исследователей и научных руководителей тянет к этому выражению как к магниту. При этом большинство авторов считают p-value единственным критерием различий, игнорируя другие, не менее важные меры оценки эффекта. Авторам невдомёк, что «нарисовав» p<0.05, можно получить статистически значимые различия, которые при этом будут клинически несущественными.
🔺Использование одного порогового значения p-value в любых исследованиях.
На самом деле это так же странно, как носить одну и ту же одежду во все времена года в умеренном климате. Летом - будет жарко, зимой - холодно… Однако практически всё научное сообщество поощряет использование единственного порога - 0.05. Он означает 5% вероятность случайного выявления наблюдаемого или ещё большего эффекта при том, что эффект на самом деле отсутствует. Разумеется, где-то нам было бы достаточно и 10% вероятности, а в других случаях будет не хватать и 1%. Но проще всего взять заветные 0.05 и подгонять свои результаты под них.
🔺Р-hacking был бы невозможен, если бы p-value не так сильно зависело от параметров дизайна исследования, например:
✔️ от числа исследуемых - для получения p<0.05 надо увеличивать,
✔️ от числа сравниваемых групп - для получения p<0.05 надо уменьшать,
✔️ от количества сравниваемых показателей - для случайного получения p<0.05 хотя бы в одном сравнении надо увеличивать.
Приведём примеры p-hacking:
В работе сравнивались 3 группы пациентов с разными степенями тяжести болезни: лёгкой, средней и тяжелой. Частота осложнений составляла 5%, 8% и 20%, соответственно. При сравнении p оказалось 0.15, то есть выше 0.05 - различия статистически незначимы.
P-hacking: Автор объединил первую и вторую группы в одну - болезнь лёгкой или средней степени тяжести, измерил показатель в этой общей группе, он получился равным 6%. При сравнении 6% с 20% p-value значительно уменьшилось и составило 0.03.
Был сделан вывод, что «при тяжелом течении по сравнению с лёгким или среднетяжёлым частота осложнений статистически значимо увеличивалась с 6 до 20% (p=0.03)».
При сравнении выживаемости пациентов с ХСН в группах приема экспериментального препарата и плацебо было получено отношение рисков HR=0.9, p-value составило 0.12.
P-hacking: Автор продолжил набор пациентов в исследуемые группы, в результате увеличив их вдвое. HR при этом почти не изменилось, составив 0.89, а p-value снизилось до 0.04.
Был сделан вывод, что «при сравнении выживаемости пациентов в группе приема экспериментального препарата риски смерти были статистически значимо ниже, чем в группе плацебо (p=0.04).
Автор искал диагностические маркёры заболевания, для чего проводил сравнение у больных и здоровых более 50 параметров анализа крови без какой-либо гипотезы о том, какие из них должны изменяться вследствие заболевания. В результате в 2 случаях были получены статистически значимые различия с p<0.05.
Был сделан вывод, что эти 2 параметра являются диагностическими маркёрами заболевания.
Согласитесь, примеры выглядят достаточно невинно. А в условиях отсутствия зарегистрированного заранее плана исследования второй пример вообще не вызывает подозрений на какие-либо манипуляции с p-value.
А какие случаи не относятся к p-hacking?
🔹Фальсификации - когда p-value или какие-либо другие данные просто сочиняются. Придумываются (а не набираются!) новые пациенты, переписываются значения показателей, «рисуются» нужные значения p-value. Кстати, в самом низу нашего блога есть очень древние посты, где мы подробно описали разные примеры фальсификаций. Это тоже большая и многообразная тема.
🔹Любые описанные заранее, до начала исследования, действия.
Например, если изначально предполагалось, что параметры будут измеряться на нескольких этапах набора пациентов, то получение статистически значимых различий на более поздних этапах в отличие от ранних, конечно, не будет считаться p-hacking’ом.
🔹В некоторых случаях - изменения дизайна исследования, сопровождающиеся консервативными поправками, затрудняющими получение p<0.05.
Например, было проведено сравнение показателя на 2 этапах наблюдения. По прошествии времени авторы решили оценить отдалённые результаты на дополнительном третьем этапе и вновь измерили показатель. При сравнении третьего этапа с предыдущими двумя использовалась поправка Бонферрони, заключавшаяся в умножении p-value на 3. Такие результаты можно считать достаточно защищёнными от вероятности случайной находки p<0.05.
Основные пути уменьшения вероятности p-hacking в научных работах
✋Изменение отношения к отрицательному результату.
Мы уже видим достаточное количество научных статей, где в результате исследования искомый эффект не был подтверждён. Есть даже отдельные диссертации с отрицательным результатом. Всему научному сообществу, и прежде всего редакциям и диссоветам, которые принимают решение о публикации, необходимо руководствоваться принципом «Истина дороже всего» и более лояльно относиться к хорошим работам с отвергнутыми гипотезами.
Вот только работа должна быть именно хорошей, а не с кое-как собранным материалом и с непонятным дизайном без четко сформулированной гипотезы. У автора должно «ничего не получаться» из-за реального отсутствия эффекта, а не из-за безответственного отношения к качеству материала и его обработки. И после опровержения гипотезы понимание изучаемого явления должно проясниться, а не ещё больше запутаться.
✋Регистрация плана проведения любых медицинских исследований.
Основные элементы дизайна, карта исследования, планируемый размер выборки должны подробно описываться и регистрироваться до проведения исследования. После его завершения можно будет сопоставить итоговый дизайн с планом и в случае выявления расхождений задать вопрос автору: почему был изменён данный пункт и что было сделано, чтобы предотвратить возможность p-hacking?
✋Использование параллельно со статистической значимостью понятия клинической значимости.
Последняя - явление небинарное и оценивается по количественным мерам эффекта. При сравнении бинарных признаков в 2 группах, например, можно оценивать относительный риск или отношение шансов. При сравнении количественных показателей - разность средних с 95% ДИ…
Представим, что получено p=0.04, а относительный риск всего лишь 1.02, то есть в экспериментальной группе ожидается увеличение риска исхода на 2%. В каких-то случаях, конечно, можно будет считать приемлемым и даже важным и такой результат. Однако чаще все-таки следует признать невысокую ценность выявленного эффекта, несмотря на его статистическую значимость.