Забудьте про p
В 2023 году один из наших клиентов — кардиолог, защищавший докторскую — получил реджект из European Heart Journal. Причина? «Отсутствие данных о размере эффекта и клинической значимости». При этом в статье красовалось p = 0.001 по всем ключевым показателям.
Эта история — не исключение. Мы понимаем, как это обидно после месяцев работы. Мировая наука переживает «кризис воспроизводимости», и редакторы топовых журналов ужесточили требования. p-value больше не считается достаточным доказательством. Что же они хотят видеть?
Почему p-value перестал быть золотым стандартом
Представьте: вы сравниваете два метода лечения и получаете p = 0.03. Формально — значимо. Но что это значит на практике?
p-value отвечает только на один вопрос: «Случаен ли этот результат?». Он НЕ говорит:
🔸 Насколько велика разница между группами
🔸 Насколько стабильна эта разница (где границы)
🔸 Имеет ли это клиническое значение
Пример из практики: исследование показало «значимое» снижение уровня холестерина (p = 0.02). Но эффект составил всего 0.1 ммоль/л — клинически незначимая величина, которая не влияет на риск сердечно-сосудистых событий.
Что требуют журналы Q1: три обязательных компонента
1. Размер эффекта (Effect Size)
Это количественная мера величины различия или связи. В зависимости от дизайна исследования используют:
🔸 Cohen's d — для сравнения средних (t-тест)
🔸 Hedges' g — для малых выборок
🔸 Odds Ratio, Relative Risk — для категориальных данных
🔸 Eta-squared, Omega-squared — для дисперсионного анализа
Интерпретация Cohen's d:
• 0.2 — малый эффект
• 0.5 — средний
• 0.8 и выше — большой
Редактор Nature или BMJ сразу видит: эффект d = 0.15 при p = 0.04 — статистически значим, но практически ничтожен.
2. Доверительные интервалы (Confidence Intervals)
95% ДИ показывают диапазон, в котором с вероятностью 95% лежит истинное значение эффекта.
Пример:
• Средняя разница: 5 мм рт. ст., p = 0.01, 95% ДИ [1; 9]
• Средняя разница: 5 мм рт. ст., p = 0.04, 95% ДИ [0.2; 9.8]
Формально оба результата значимы. Но второй — нестабилен: нижняя граница почти касается нуля. Редактор увидит это мгновенно и усомнится в воспроизводимости.
Журналы Scopus Q1 требуют ДИ для всех ключевых результатов — в тексте, таблицах и на графиках.
Если вы готовите публикацию и не уверены в корректности расчётов — загляните на https://statobrabotka.ru или напишите в https://vk.com/centerstatresearch. Мы проверяем статистику перед отправкой в журнал и помогаем избежать реджекта.
3. Клиническая значимость (Clinical Significance)
Это интерпретация результата в контексте реальной практики. Вопросы, которые задаёт редактор:
🔸 Изменит ли этот эффект тактику лечения?
🔸 Ощутим ли он для пациента?
🔸 Оправдывает ли он риски и затраты?
Пример:
Новый антигипертензивный препарат снижает систолическое давление на 3 мм рт. ст. (p Без обсуждения клинической значимости статья будет отклонена, даже если математика безупречна.
Как это выглядит в реальной статье
Сравните два варианта представления результатов:
Вариант 1 (устаревший):
«Группы статистически значимо различались по уровню гемоглобина (p = 0.03).»
Вариант 2 (современный):
«Уровень гемоглобина в группе вмешательства был выше на 8 г/л (95% ДИ [1; 15], p = 0.03, Cohen's d = 0.52). Эффект средний; клинически может быть значим для пациентов с исходной анемией, но требует подтверждения в более крупной выборке.»
Второй вариант даёт полную картину: величину эффекта, его устойчивость, практическую интерпретацию и ограничения.
Пошаговый план: что делать с вашими данными прямо сейчас
Шаг 1. Пересчитайте все ключевые результаты
Для каждого значимого p-value добавьте:
🔸 Размер эффекта (выберите подходящий для вашего теста)
🔸 95% доверительный интервал
Программы: SPSS, STATISTICA (встроенные функции для effect size и ДИ), R (пакеты effsize, lsr, DescTools), Python (библиотеки scipy, pingouin). Или обратитесь к статистику — это сэкономит время и гарантирует корректность.
Шаг 2. Постройте графики с ДИ
Современные журналы требуют визуализацию неопределённости. Используйте:
• Forest plots для мета-анализов и множественных сравнений
• Error bars (планки ошибок) на столбчатых и точечных диаграммах
• Violin plots или box plots для распределений
Шаг 3. Перепишите раздел «Результаты»
Замените фразы типа «различия статистически значимы» на:
• Величину эффекта
• Доверительный интервал
• Интерпретацию (малый/средний/большой эффект)
Шаг 4. Добавьте подраздел в «Обсуждение»
Озаглавьте его «Клиническая значимость» или «Практические implications». Ответьте на вопросы:
🔸 Что означает этот эффект для пациента?
🔸 Изменит ли это клиническую практику?
🔸 Какие ограничения и оговорки?
Реальный кейс: от реджекта до acceptance
Врач-эндокринолог обратился к нам после отказа из журнала Q2. Рецензент написал: «Authors report p-values without effect sizes or confidence intervals. This is insufficient for evaluation.»
Мы пересчитали данные:
• Добавили Cohen's d для всех сравнений (от 0.3 до 0.7 — малые и средние эффекты)
• Построили forest plot с 95% ДИ
• Дописали абзац о клинической интерпретации: эффекты достаточны для скрининга, но недостаточны для диагностики
Статью отправили в другой журнал Q2. Ответ пришёл через 6 недель: accepted with minor revisions. Рецензент отметил «rigorous statistical approach and transparent reporting».
Частые ошибки, которые мы видим в статьях
🔸 Ошибка 1: Указывают только p-value, без effect size
Решение: всегда парно — p и d (или OR, RR)
🔸 Ошибка 2: Путают стандартную ошибку (SE) и стандартное отклонение (SD)
Решение: для ДИ нужна SE; для описательной статистики — SD
🔸 Ошибка 3: Пишут «значимо» вместо конкретных цифр
Решение: значимость бинарна. Важна величина эффекта.
🔸 Ошибка 4: Игнорируют множественные сравнения
Решение: если тестов больше 3–5, применяйте поправку Бонферрони или FDR
🔸 Ошибка 5: Не обсуждают границы ДИ
Решение: если нижняя граница близка к нулю — признайте неопределённость и призовите к дальнейшим исследованиям
Контрольный чек-лист перед отправкой в Q1
Перед submission проверьте:
☑ Для каждого ключевого результата указаны: p-value, effect size, 95% ДИ
☑ Все графики содержат планки ошибок или ДИ
☑ В разделе «Результаты» есть интерпретация величины эффекта
☑ В «Обсуждении» есть параграф о клинической значимости
☑ Нет расплывчатых формулировок без количественного обоснования
☑ Методы расчёта effect size и ДИ описаны в разделе «Статистика»
Если хотя бы один пункт не выполнен — риск реджекта возрастает кратно.
Заключение: новый стандарт — это не сложнее, а честнее
Переход от культа p-value к интегрированной оценке (эффект + ДИ + клиника) делает науку прозрачнее и воспроизводимее. Да, это требует дополнительных расчётов. Но это не усложнение — это возврат к смыслу.
Статистика существует не для того, чтобы «доказать значимость», а чтобы измерить и понять явление.
Если вы пишете диссертацию или готовите статью в Scopus, и хотите быть уверены, что ваша статистика соответствует современным требованиям — обращайтесь. Мы проводим аудит данных, пересчитываем показатели, строим графики и помогаем интерпретировать результаты так, чтобы редактор сказал «yes».
Контакты: https://statobrabotka.ru и https://vk.com/centerstatresearch
Ответим в течение 3 часов. Работаем с SPSS, R, Python, STATISTICA, Jamovi.
Комментарий:
Современные требования к статистической отчётности — это не прихоть редакторов, а ответ на кризис воспроизводимости результатов. Мы помогаем исследователям адаптироваться к новым стандартам и публиковаться в журналах первого квартиля.