Какие статистические тесты используют чаще всего в медицинских диссертациях — и как не провалить защиту из-за неправильного выбора критерия
Вы закончили сбор данных, заполнили таблицу Excel, открыли SPSS — и застыли. Перед вами 50 пациентов в двух группах, три переменных и один вопрос: «Какой критерий применить?»
Вы помните, что на кафедре мелькали слова «t-тест», «Манн–Уитни», «хи-квадрат». Но какой именно нужен вам — непонятно. Вы пробуете все подряд, смотрите на p-value, выбираете тот, где p1. t-тест Стьюдента: когда сравниваете две группы и данные «нормальные»
t-тест — рабочая лошадка медицинской
статистики. Вы применяете его, когда хотите сравнить среднее значение количественного показателя в двух независимых группах: например, уровень гемоглобина у мужчин и женщин, артериальное давление в группе лечения и плацебо.
Условия применения:
🔸 Данные должны подчиняться нормальному распределению (проверка: тест Шапиро–Уилка, Колмогорова–Смирнова).
🔸 Выборки независимы (разные люди).
🔸 Дисперсии примерно равны (проверка: тест Ливеня).
Красный флаг: Вы применили t-тест при выборке 8+9 человек, данные скошены вправо (медиана 12, среднее 38). Рецензент открыл гистограмму — и увидел «хвост» в одну сторону. Вердикт: «Условие нормальности нарушено, критерий неприменим». Решение: Манн–Уитни.
2. Критерий Манна–Уитни: когда данные «кривые» или выборка мала
Манн–Уитни (U-тест) — это непараметрический аналог t-теста. Он сравнивает медианы (а не средние) и не требует нормальности распределения.
Когда применять:
🔸 Данные не нормальны (перекос, выбросы).
🔸 Маленькая выборка (меньше 30 в группе), и норма
льность сомнительна.
🔸 Порядковые шкалы (баллы боли, степень тяжести).
Пример: Сравниваете уровень СРБ в двух группах. Данные перекошены (есть пациенты с СРБ 200 мг/л при медиане 8). Тест Шапиро даёт p=0,003 — распределение не нормально. Применяете Манн–Уитни — и получаете корректный результат.
Красный флаг: Вы написали «среднее±SD» и применили Манн–Уитни. Рецензент: «Если критерий непараметрический, то в таблице должны быть медиана и квартили, а не среднее». Ошибка оформления — минус балл.
3. χ² Пирсона: когда сравниваете категории (да/нет, исход, группа риска)
Критерий χ² (хи-квадрат) применяют для сравнения частот в таблицах сопряжённости: сколько пациентов выжило/умерло в двух группах, сколько мужчин/женщин в группе риска, частота побочных эффектов.
Условия применения:
🔸 Данные категориальные (не количественные).
🔸 Ожидаемая частота в каждой ячейке таблицы ≥5.
🔸 Наблюдения независимы (один человек — одна ячейка).
Красный флаг №1: Вы сравнили исход (выжил/умер) в двух группах
по 6 человек. Построили таблицу 2×2, применили χ². Рецензент пересчитал ожидаемые частоты — в двух ячейках они оказались 2,8 и 3,2 (меньше 5). Вердикт: «Условие применимости нарушено. Нужен точный тест Фишера».
4. Точный тест Фишера: когда выборка мала, а χ² нельзя
Точный тест Фишера — это «спасатель» для малых выборок и редких событий. Он работает при любой выборке и не требует условия «ожидаемая частота ≥5».
Когда применять:
🔸 Таблица 2×2 (две группы, два исхода).
🔸 Хотя бы одна ожидаемая частота Пример: Вы сравниваете частоту инфаркта в двух группах: 1 из 8 в группе А, 0 из 7 в группе Б. χ² здесь неприменим (ожидаемые частоты 0,5). Точный тест Фишера даёт корректный p-value.
Совет: Если сомневаетесь — используйте Фишера. Он всегда корректен для таблиц 2×2, просто чуть менее мощный при больших выборках. Лучше перестраховаться, чем получить замечание на защите.
Если вам нужна помощь в выборе критерия и расчёте — обращайтесь в Це
нтр статистических исследований: https://statobrabotka.ru и https://vk.com/centerstatresearch. Разберём вашу таблицу и дадим письменное заключение за 48 часов.
5. Парный t-тест и критерий Вилкоксона: когда измеряете «до и после» у одних и тех же людей
Парные данные — это когда вы измеряете один и тот же показатель у одного и того же пациента дважды: давление до лечения и после, уровень глюкозы натощак и через 2 часа, боль в баллах до операции и через месяц.
Ошибка: Применить обычный (непарный) t-тест. Вы потеряете мощность критерия и можете получить ложный вывод «эффекта нет», хотя на самом деле он есть.
Правило:
🔸 Данные нормальны → парный t-тест.
🔸 Данные не нормальны → критерий Вилкоксона (знаковых рангов).
Пример: Измерили уровень холестерина у 30 пациентов до и через 3 месяца приёма статинов. Данные нормальны. Применяете парный t-тест — и получаете p=0,001. Если бы применили непарный — p=0,08, и вы бы пропустили эффект.
6. ANOVA (дисперсионный анализ): когда срав
ниваете три и больше групп
ANOVA (ANalysis Of VAriance) — это обобщение t-теста на случай трёх и более групп. Например, вы сравниваете эффективность четырёх схем лечения по уровню АД.
Условия применения:
🔸 Данные нормальны в каждой группе.
🔸 Дисперсии примерно равны (тест Ливеня).
🔸 Три и больше независимых групп.
Красный флаг: Вы получили pРешение: После ANOVA ОБЯЗАТЕЛЬНО проводят post-hoc тесты (Тьюки, Бонферрони, Шеффе) — попарные сравнения с поправкой на множественность. Без них вывод пустой.
7. Критерий Краскела–Уоллиса: непараметрический аналог ANOVA
Если данные не нормальны, а групп три и больше — ANOVA нельзя. Вместо него применяют критерий Краскела–Уоллиса (ранговый аналог ANOVA).
Когда применять:
🔸 Сравнение 3+ групп.
🔸 Данные не нормальны или порядковые (баллы, степени тяжести).
Приме
р: Сравниваете уровень билирубина в четырёх группах по степени цирроза (Child A, B, C, здоровые). Данные перекошены. Применяете Краскела–Уоллиса + post-hoc (попарные сравнения с поправкой Бонферрони на ранги).
Совет: Не забудьте про post-hoc! Краскел–Уоллис, как и ANOVA, говорит только «есть различия где-то», но не показывает, где именно.
8. Корреляция Пирсона и Спирмена: когда ищете связь между двумя переменными
Корреляция показывает, есть ли связь между двумя количественными переменными: возраст и давление, вес и уровень глюкозы, стаж курения и ОФВ₁.
Правило выбора:
🔸 Данные нормальны, связь линейная → корреляция Пирсона (r).
🔸 Данные не нормальны или связь нелинейная (монотонная) → корреляция Спирмена (ρ).
Красный флаг: Вы нашли корреляцию Пирсона r=0,62, pРешение: После корреляции переходите к регрессионному анализу (множественная линейная или логистическая регрессия). Он покажет независимый вклад каждого фактора.
Подробнее о построении моделей — на сайте Центра статистических исследований: https://statobrabotka.ru, а также в нашей группе ВКонтакте: https://vk.com/centerstatresearch.
9. Логистическая регрессия: когда исход бинарный (да/нет, выжил/умер, осложнение есть/нет)
Логистическая регрессия — это «тяжёлая артиллерия» для анализа факторов риска. Вы одновременно учитываете несколько предикторов (возраст, пол, ИМТ, курение, сопутствующие болезни) и оцениваете их независимый вклад в бинарный исход.
Когда применять:
🔸 Исход — категория «да/нет» (смерть, осложнение, рецидив).
🔸 Нужно оценить вклад каждого фактора с поправкой на остальные (скорректированное отношение шансов, OR).
Пример: Вы хотите понять, какие факторы предсказывают летальность при сепсисе. Включаете в модель: возраст, пол, шкалу SOFA, уровень лактата, наличие ОПН. Логистическая регрессия вы
даёт скорректированные OR для каждого фактора — и вы видите, что лактат >4 ммоль/л увеличивает шансы смерти в 8 раз (OR=8,2; 95% ДИ 3,1–21,4; pСовет: Не включайте в модель коррелирующие предикторы (например, вес и ИМТ одновременно) — это мультиколлинеарность, модель «сломается».
10. Поправка на множественные сравнения: Бонферрони, FDR и почему без них ваши p-value — мусор
Представьте: вы сравнили 20 биомаркеров в двух группах. Нашли 3, где pПроблема: Если вы делаете 20 тестов, вероятность хотя бы одного случайного pРешение:
🔸 Поправка Бонферрони: новый порог значимости α = 0,05 / число тестов. Например, при 20 тестах α = 0,0025. Консервативна, но надёжна.
🔸 FDR (False Discovery Rate): менее строгая, подходит для больших массивов данных (геномика, метаболомика).
Правило: Если вы делае
те больше одного теста на одном датасете — нужна поправка. Без неё ваши выводы под вопросом.
Заключение: как не провалить защиту из-за статистики
Статистика — это не «чёрный ящик», куда закидываешь данные и получаешь p-value. Это инструмент, у которого есть инструкция: условия применения, ограничения, области корректного использования.
Рецензент на защите НЕ спросит: «Какой у вас p-value?» Он спросит: «Почему вы выбрали именно этот критерий? Проверили ли условия применимости? Учли ли множественность? Провели ли post-hoc?»
Если вы ответите «не знаю» или «так в статье было» — диссертацию развернут на доработку. Если ответите чётко, со ссылкой на тест нормальности, размер выборки, поправку Бонферрони — получите «отлично» за главу Methods.
Три шага, чтобы избежать ошибок:
1. Проверьте условия применимости ПЕРЕД выбором критерия: нормальность (Шапиро–Уилк), равенство дисперсий (тест Ливеня), независимость наблюдений, размер выборки.
2. Не гонитесь за p. Если данные не нормальны — не пытайтесь «подог
нать» их под t-тест. Примените непараметрический аналог — и спите спокойно.
3. Учтите множественность. Если делаете больше одного теста — примените поправку Бонферрони или FDR. Лучше найти 2 надёжных маркера, чем 5 ложных.
Если вы не уверены в выборе критерия, боитесь ошибки или получили замечания от научрука — обратитесь за аудитом статистики. Вы отправляете главу «Материалы и методы» или базу данных — и через 48 часов получаете письменное заключение: какие тесты применить, что пересчитать, как оформить таблицы, как ответить рецензенту.
Контакты Центра статистических исследований:
https://vk.com/centerstatresearch
Аудит статистики — это не «контрольная работа». Это ваша страховка от провала на предзащите и гарантия, что рецензент не найдёт методологических ошибок в главе 2.
Комментарий: Какой критерий в вашей диссертации вызвал больше всего вопросов у научрука — t-тест, χ² или логистическая регрессия? Напишите в комментариях — разберём ваш случай и подскажем, как аргументировать выбор на защите.