Найти в Дзене
Кружок Пейпеца

Суть проблемы множественного тестирования (Multiple Comparisons Problem

) Проблема множественного тестирования - это фундаментальная статистическая проблема, которая создает инфляцию ложноположительных результатов при проведении множественных тестов гипотез на одном наборе данных. В контексте ноотропных исследований, особенно при тестировании когнитивных функций, эта проблема становится критической и часто систематически игнорируется или недостаточно корректируется исследователями. Каждый статистический тест имеет установленный уровень ошибки первого рода, обычно α = 0.05 (5% вероятность ложноположительного результата). Эта вероятность 5% применима к каждому отдельному тесту. Однако, когда вы проводите множественные тесты на одних и тех же данных, вероятность совершить хотя бы одну ошибку первого рода значительно возрастает. Математический расчет Вероятность совершить хотя бы одну ошибку первого рода при множественных тестах рассчитывается по формуле: P(хотя бы одна ошибка)=1−(1−α)^ m где: α = желаемый уровень значимости для каждого теста (0.05) m = коли

Суть проблемы множественного тестирования (Multiple Comparisons Problem)

Проблема множественного тестирования - это фундаментальная статистическая проблема, которая создает инфляцию ложноположительных результатов при проведении множественных тестов гипотез на одном наборе данных. В контексте ноотропных исследований, особенно при тестировании когнитивных функций, эта проблема становится критической и часто систематически игнорируется или недостаточно корректируется исследователями.

Каждый статистический тест имеет установленный уровень ошибки первого рода, обычно α = 0.05 (5% вероятность ложноположительного результата). Эта вероятность 5% применима к каждому отдельному тесту. Однако, когда вы проводите множественные тесты на одних и тех же данных, вероятность совершить хотя бы одну ошибку первого рода значительно возрастает.

Математический расчет

Вероятность совершить хотя бы одну ошибку первого рода при множественных тестах рассчитывается по формуле:

P(хотя бы одна ошибка)=1−(1−α)^ m

где:

α = желаемый уровень значимости для каждого теста (0.05)

m = количество проводимых тестов

Конкретный пример для ноотропных исследований:

Предположим, компания тестирует ноотроп на когнитивные функции, используя батарею из 20 различных тестов (как для NSI-189 типа CogScreen в Nature):

При 20 тестах, вероятность получить хотя бы один ложноположительный результат чисто по случайности составляет 64.2%, а не 5%!

Это означает, что если вы проводите 20 независимых тестов с α = 0.05, вы с вероятностью почти 2 к 3 получите хотя бы один "значимый" результат исключительно благодаря шуму в данных, а не истинному эффекту препарата.

В исследовании NSI-189 фазы 2 использовалась батарея CogScreen, которая включает:**

Авторы доложили статистически значимые результаты на:

*Задаче отсроченного вспоминания символ-цифровых ассоциаций (p < 0.05, Cohen's d = 0.81)

*Задаче исполнительной функции (p < 0.05)

*Задаче выбора времени реакции (p < 0.05)

Коррекция Бонферрони (Bonferroni Correction) - консервативный подход для решения проблемы множественных сравнений

Идея: Если вы проводите m тестов, проверяйте каждый тест с более строгим уровнем значимости:

Вместо p < 0.05, вы требуете p < 0.0025 для каждого теста (см. формулы)

Если бы авторы применили коррекцию Бонферрони с 20 тестами, значимым требовалось бы p < 0.0025. Результат с p < 0.05 (что выглядит значимым без коррекции) стал бы незначимым при коррекции.

На примере вот этой статьи: https://www.nature.com/articles/s41380-018-0334-8#Sec11

Материал по теме: https://habr.com/ru/companies/yandex/articles/476826/