Автор – Алиса Годованец
Часто можно услышать вполне обоснованную критику в сторону нейронаучных исследований: как они могут быть надёжными, если выборки зачастую слишком малы? Вопрос действительно актуален, ведь маленькие выборки снижают статистическую мощность исследования, что может сильно повлиять на его результаты. А значит, возникают сомнения: можно ли доверять выводам таких работ? Влияют ли они на реальное понимание работы мозга или их вклад может оказаться иллюзорным?
Исследователи обратили внимание на эту проблему, представив качественный анализ, опубликованный в журнале Nature Reviews Neuroscience (несмотря на то, что статья была написана еще в 2013 году, её выводы остаются актуальными и сегодня). Авторы показывают, что медианная статистическая мощность исследований в нейронауке колеблется между 8% и 31%, что значительно ниже оптимальных 80%, рекомендуемых для надёжных исследований. Это означает, что существенная часть данных может быть недостоверной и фактические эффекты часто оказываются завышенными. В этом лонгриде мы подробно изложим ключевые тезисы данной аналитической работы, а также рекомендации авторов — их критическую оценку современной нейронауки и предложенные ими шаги для повышения надежности исследований в этой сфере.
Проблемы, вызванные низкой мощностью исследований
Низкая статистическая мощность исследований создаёт несколько основных проблем. Во-первых, это приводит к повышенной вероятности ложноотрицательных результатов, то есть случаев, когда реальный значимый эффект не обнаруживается в ходе экспериментов. Авторы поясняют, что при мощности в 20% из 100 существующих эффектов можно будет обнаружить только 20, что делает исследования крайне неэффективными для выявления истинных эффектов. Такая низкая мощность значительно увеличивает долю пропущенных открытий и негативно влияет на общий уровень знаний в нейронауке.
Во-вторых, низкая статистическая мощность исследования снижает так называемое положительное предсказательное значение (PPV) — это показатель, который отражает вероятность того, что значимый результат исследования действительно является отражением реального эффекта, а не случайным совпадением. Например, представим, что в научной области предполагается, что только 20% исследуемых эффектов действительно существуют (то есть они не нулевые), а порог значимости выбран на уровне p < 0.05. При такой низкой мощности исследования (20%) положительное предсказательное значение составит всего 50%. Это значит, что даже если результат признан статистически значимым, есть только 50% вероятность, что он соответствует реальному эффекту, а не является ложным срабатыванием. Иными словами, половина таких «положительных» результатов может оказаться ложной, что существенно подрывает доверие к выводам исследований.
Третья проблема — это так называемое «проклятие победителя» (winner's curse). Оно возникает, когда исследования с низкой статистической мощностью всё-таки находят некий значимый эффект, но размер этого эффекта оказывается завышенным. Это происходит потому, что статистически значимые результаты чаще всего получают те исследования, где эффект был случайно оценён выше его реальной величины. В итоге полученные данные оказываются преувеличенными и нередко не совпадают с истинной силой эффекта. Это усложняет задачу для других ученых, которые пытаются повторить такие эксперименты и подтвердить полученные ранее результаты уже в своих исследованиях.
Этические аспекты исследований с низкой мощностью
Низкая мощность исследований также вызывает ряд этических вопросов. Результаты ненадёжных экспериментов, особенно в тех случаях, когда используются лабораторные животные, приводят к неэффективному расходованию ресурсов и создают угрозу для воспроизводимости данных. Исследования на животных особенно подвержены этой проблеме: например, для экспериментов с использованием лабиринтов выборка в 22-24 животных имеет мощность около 18-31%, что недостаточно для обнаружения малых и средних эффектов. Более того, эти выборки необходимо увеличивать в несколько раз для получения надёжных результатов, что увеличивает количество используемых животных и вызывает противоречия с принципами этики в науке (не говоря уж о расходах).
Эмпирические доказательства низкой мощности в нейронауке
Для оценки среднего уровня статистической мощности исследований в нейронауке авторы проанализировали 49 мета-анализов, опубликованных в 2011 году. Эти мета-анализы включали данные из 730 отдельных исследований, охватывающих различные направления нейронауки. Авторы рассчитали мощность каждого исследования для выявления совокупного эффекта, определенного в соответствующем мета-анализе, предполагая уровень значимости α = 5%. В итоге было установлено, что медианная мощность в нейронауке составляет всего 21%, что указывает на общую низкую статистическую мощность большинства исследований в этой области.
Особенно низкие показатели мощности наблюдаются в исследованиях с применением методов нейровизуализации, где средняя мощность составила всего 8%. Это важно, поскольку такие исследования часто направлены на выявление небольших различий в мозговой активности или в объёме между группами, такими как здоровые участники и пациенты с психическими заболеваниями. Низкая мощность в таких исследованиях делает их результаты менее надежными, так как даже статистически значимые результаты могут быть случайными. Лично мне тут же вспоминается знаменитое исследование с фМРТ мёртвого лосося, но о нём я расскажу в другой раз:)
Интересной находкой стало то, что распределение мощности среди мета-анализов носило бимодальный характер. Почти 50% исследований имели среднюю мощность ниже 20%, в то время как 14% мета-анализов продемонстрировали высокую мощность, превышающую 90%. Высокомощные мета-анализы в основном касались тем нейробиологии, однако значительная их часть опиралась на небольшие выборки. Если исключить эти «выбивающиеся» мета-анализы, медианная мощность снижается до 18%, что подчеркивает хронически низкую мощность большинства нейронаучных исследований.
Дополнительные biases и их влияние на результаты исследований
В исследованиях с низкой статистической мощностью часто возникают дополнительные систематические ошибки. Одной из таких ошибок является «вибрация/колебания эффектов» (vibration of effects) — ситуация, при которой различные подходы к анализу данных приводят к изменению величины эффекта. Например, при анализе данных функциональной МРТ можно использовать сотни различных аналитических стратегий, и в каждом случае результат будет слегка различаться. В маломощных исследованиях такие вариации значительно искажают результаты, так как небольшие изменения в аналитическом подходе могут существенно влиять на выводы. Эта проблема особенно ярко проявляется в маленьких выборках, где результаты сильно зависят от случайных колебаний данных.
Также исследования с низкой мощностью подвержены более высокой вероятности публикационных искажений и избирательного анализа данных. Публикационное искажение заключается в том, что «негативные» результаты (то есть результаты, не подтверждающие гипотезу) чаще остаются непубликуемыми. Кроме того, малые исследования чаще сталкиваются с проблемой избирательного анализа, когда авторы сообщают только о результатах, которые достигли статистической значимости, пренебрегая другими результатами.
Наконец, маломощные исследования часто уступают по качеству дизайна более крупным исследованиям. Проводить маленькие исследования иногда проще, так как для них не требуется больших ресурсов, однако это приводит к меньшей тщательности в подготовке методологии и к возможному нарушению строгих научных стандартов. При этом крупные исследования, как правило, требуют значительного финансирования и тщательно разрабатываются на всех этапах, чтобы минимизировать риск ошибок.
Важность репликации исследований
Одной из ключевых рекомендаций, предложенных в статье, является усиление репликации исследований (ведь репликационный кризис тоже напрямую касается нейронаук, и, к сожалению, в нейронауке стимулирование проведения репликаций до сих пор остаётся недостаточным). Авторы приводят в качестве примера успехи крупных коллабораций в области генетической эпидемиологии, где репликация становится стандартом и позволяет получать более надёжные и воспроизводимые результаты. Таким образом, в нейронауке также требуется больше репликационных исследований для повышения достоверности данных и снижения риска ложноположительных результатов.
Заключительные мысли
Этот анализ акцентирует внимание на том, что малая статистическая мощность и ограниченные выборки действительно представляют собой значительную проблему для нейронауки. Низкая мощность исследований не только затрудняет обнаружение подлинных эффектов, но и повышает вероятность ложноположительных результатов, нередко завышая оценки эффектов. Это, в свою очередь, подрывает доверие к результатам исследований и вызывает этические вопросы, особенно в исследованиях на животных, где ненадежные данные приводят к избыточному расходу ресурсов. Чтобы повысить надёжность исследований, авторы статьи рекомендуют расширять размер выборок, применять строгие критерии анализа и поощрять репликацию результатов. Эти, казалось бы, очевидные шаги при их повсеместном внедрении позволят нейронауке приблизиться к высокому уровню достоверности и воспроизводимости, тем самым укрепляя доверие к её выводам и выводя на новый качественный уровень понимание мозга.
Тем не менее наличие таких проблем не ставит под сомнение всю нейронауку. Напротив, несмотря на ограничения, область продолжает активно развиваться и проливать свет на важнейшие аспекты работы мозга. Исследования в этой области все еще нужны и важны, но стоит сохранять здоровый уровень скептицизма, не впадать в “нейробесие” и больше доверять большим данным (поэтому мы так любим мета-анализы и исследования на больших выборках; это, конечно, не гарантирует полную правдивость, но точно повышает уровень доверия).