Рано или поздно перед исследователем в области медицины встает задача статистической обработки данных для научной статьи или диссертации.
И чаще всего первый вопрос, который задает исследователь, столкнувшись с необходимостью расчета медицинской статистики: «сколько пациентов набирать»?
Почему это важно? С точки зрения статистики, есть минимальная численность выборки, при которой выводы Вашего исследования будут статистически значимыми – то есть, если в данных «что-то есть», то оно проявится. Что это значит на практике? Если «недобрать» группы, то есть риск возникновения ошибки II рода – получить ложноотрицательный результат: новый препарат не работает, хирургическое вмешательство неэффективно и т. д., хотя на самом деле это не так, просто не хватило людей.
На самом деле, откроем вам страшную тайну: этот вопрос вторичен или даже третичен. Если вы хотите избежать ошибок и каверзных вопросов диссовета, или, чего круче, чтобы ваша работа была достойна Scopus, Nature или, боже упаси, Lancet, то начинать готовиться к статистической обработке надо гораздо раньше, когда вы еще только продумываете тему исследования.
Так каков же алгоритм написания диссертации?
Все просто, начать нужно с самой темы исследования - исследовательского вопроса, на который вы будете отвечать в своей работе (типичные вопросы исследования мы разберем ниже).
В зависимости от исследовательского вопроса выбирается дизайн исследования (иными словами способ сбора выборки). Дизайна исследования определяет, какие методы статистической обработки данных нам подходят. И, наконец, от выбранных методов зависит размер выборки.
исследовательский вопрос → дизайн исследования → методы статистической обработки → размер выборки
Давайте разберем ниже подробнее самые распространенные случаи, и, надеемся, вы узнаете в них свою работу.
Ниже приведены типичные исследовательские вопросы в области медицины и соответствующие им дизайны исследований.
1. Оценка тактики лечения: какое лекарство/метод лечения лучше → рандомизированное контролируемое испытание (РКИ)
Пациенты (то есть уже болеющие чем-то люди) случайным образом распределяются в группы: получающие терапию, являющуюся предметом исследования и получающие плацебо/золотой стандарт. Исследуем, что нам даст то и другое лечение. Важно, что данные накапливаются уже после того, как вы решили провести исследование, а не берется файл, копившийся на кафедре десятилетиями. Да, это дорого. Да, это долго. Не я решила быть врачом. Тем не менее, если РКИ – ваша тема, то изучите формат публикаций РКИ в научных журналах – CONSORT.
МЕТОДЫ: Сравнение средних значений в группах. Анализ выживаемости (если результат терапии – какая-то конечная точка, исход).
2. Прогнозирование: приводит ли употребление алкоголя к болезням печени → продольное (лонгитудинальное) когортное исследование
Выбирается 2 или более групп людей, так же, как и в РКИ, получающих разное лечение/подверженных разному воздействию факторов: курящих и не курящих итп. В отличие от РКИ они могут еще не болеть (или имеющих раннюю стадию заболевания) и, более того, в процессе Вашего наблюдения за ними не заболеют исследуемым Вами недугом (не получат развития болезни). Опять же, данные собираем после того, как решили проводить исследование – зато сможем делать выводы о причинности событий.
МЕТОДЫ: Сравнение частот в группах. Анализ шансов/рисков. Анализ выживаемости. Регрессионный анализ (прогнозные модели). Корреляционный анализ (можно говорить о причинности). Модели индивидуального/персонифицированного рисков.
3. Разработка методов профилактики/этиология: какие из условий труда на заводе являются факторами риска развития ССЗ? → когортное исследование или случай-контроль
Пациентов, больных исследуемым заболеванием (случаи), сравнивают с контрольной группой (здоровые, с другим заболеванием, с легкой степенью заболевания), чтобы выяснить, что привело их к текущему состоянию.
Аллилуйя! Этот дизайн исследования позволяет задействовать сокровищницу данных кафедры или Вашего научного руководителя: факторы воздействия мы оцениваем ретроспективно (то есть из историй болезни)!
МЕТОДЫ: Сравнение частот и средних в группах. Анализ шансов/рисков. Регрессионный анализ (не прогноз, а описание). Корреляционный анализ (нельзя говорить о причинности, говорим об «ассоциации» факторов риска с заболеванием). Модели индивидуального/персонифицированного рисков.
4. Оценка метода диагностики/прибора: можно ли использовать КТ только венозной фазы для диагностики вместо 4хфазного КТ? → поперечное исследование
По каждому пациенту собираются данные о результатах нового диагностического теста (показаниях прибора), результатах «золотого стандарта» и истинном состоянии. Опять же, можно ретроспективно.
МЕТОДЫ: ROC анализ, анализ чувствительности-специфичности.
Наконец, расчет размера выборки. Число людей, которых необходимо набрать для исследования, чтобы получить статистически значимый результат.
Начинаем с конца исследования, представляем тот прекрасный момент, когда мы срываем овации благодарной аудитории в честь нашего грандиозного открытия и отвечаем на вопрос: какая минимальная обнаруженная нами разница между группами/показаниями разных диагностических тестов будет считаться клинически значимой? То есть берем наш целевой показатель (разница АД после лечения препаратом А и Б; частота заболеваний печени у курящих и не курящих; уровень шума на месте работы у пациентов с ССЗ и без; частота правильно диагностированных новым тестом и «золотым стандартом») и определяем, какой результат нам «хотелось» бы видеть в работе.
То есть исследование может показать, что препарат Б приводит к снижению уровня холестерина у пациентов статистически значимо на 0,01 ммоль/л. Но будет ли такое снижение значимо клинически ? Стоит ли нам отказываться от старого доброго препарата А? Или, наоборот, если КТ только венозной фазы обнаруживает лимфому на 0,5% случаев реже, чем 4х-фазное КТ, продолжать ли нам «мучить» пациентов?
Вы спросите меня, ну а причем здесь методы? Понять, какую разницу в результате я хочу получить я мог и без сложных статистических терминов про сравнения частот и корреляции? Так вот, с расчетом размера выборки тесно связан еще один показатель – мощность статистического метода , который будет использован для анализа. Мощность - вероятность обнаружить различия, если они там есть, а точнее, способность метода это сделать. Чем она ниже, тем меньший размер выборки нам потребуется. В медицинских исследованиях принято выбирать мощность в интервале от 80 до 90%.
У каждого статистического критерия (читай, метода обработки) своя формула расчета мощности, которую можно трансформировать в формулу расчета размера выборки. Чтобы жизнь врача исследователя стала хоть чуточку проще скажу – эти формулы не надо знать и считать руками, есть специальные калькуляторы. Например, в калькуляторе, Вам не придется заморачиваться со статистическими методами, он все сделает за Вас, в том числе сгенерирует текст.
Итак, все что Вам нужно, чтобы рассчитать число пациентов для исследования:
1. В зависимости от исследовательского вопроса – что хотим доказать человечеству – определяем соответствующий дизайн исследования.
2. Подбираем методы обработки данных (например, сравнения средних в группах) и внутри них – подходящие статистические критерии (например, тест Манна-Уитни).
3. Определяем минимальную разницу в группах/показаниях приборов, которую бы нам «хотелось» наблюдать, и которую сочтем клинически значимой.
4. Выбираем уровень мощности от 80 до 90% (тут можно будет поэкспериментировать).
5. Теперь дело за малым – воспользоваться калькуляторами мощности/расчета размера выборки для вашего статистического критерия, например, ЭТИМ.
Итого, в статью или диссертацию, не забудьте включить фрагмент с описанием процесса расчета выборки (что сразу выгодно выделит вашу работу среди прочих):
Было получено, что чтобы с 80%-ной вероятностью при ошибке первого рода альфа на уровне 5% обнаружить различия величиной Х в исследуемых группах при сравнении с использованием метода Манна-Уитни, необходимо набрать Z пациентов в каждую группу.