Вы собрали материал диссертации. Открываете таблицу Excel — и видите его. Пациента, который выбивается из всей выборки. У всех лейкоциты 5–10, а у него 50. У всех давление 120, а у него 220. Один такой «аномальный» случай — и среднее арифметическое летит в космос, p-value меняется, выводы рушатся.
По данным нашей практики, 8 из 10 аспирантов выделяют строку, жмут Delete, пересчитывают, и фиксируют «улучшенный» результат в таблице.
Стоп. Вы только что совершили научное преступление.
Почему удаление выбросов — это фальсификация
Любой рецензент, любой член диссертационного совета, любой редактор журнала Q1 задаст вам три вопроса:
🔸 Почему в вашей выборке ровно N пациентов, а в протоколе исследования было N+3?
🔸 Где документ, подтверждающий исключение этих случаев из анализа?
🔸 По каким заранее установленным критериям вы их убрали?
Если ответов нет — вас обвинят в подтасовке данных. Это не паранойя. Это реальная практика разборов в ВАК, в редакциях Scopus-журналов, в апелляционных комиссиях.
Удаление данных после того, как вы увидели результат, называется «подгонка под гипотезу». За это лишают степеней. За это отзывают статьи. За это ставят чёрные метки в научной репутации.
Но ведь он действительно «неправильный»!
Да, этот пациент не похож на других. Но задайте себе честный вопрос: он неправильный — или ваша модель анализа неправильная?
Среднее арифметическое — очень капризная штука. Оно чувствительно к каждому числу в выборке. Один выброс — и среднее сдвигается. Это не значит, что выброс «плохой». Это значит, что среднее арифметическое — неподходящий инструмент для ваших данных.
Представьте: вы пытаетесь забить гвоздь отвёрткой. Не получается. Вы не выбрасываете гвоздь — вы берёте молоток. В статистике «молоток» для данных с выбросами — это медиана и непараметрические тесты.
Легальный алгоритм работы с выбросами
Шаг 1: Проверьте на опечатку
Прежде чем принимать решение, откройте первичную документацию. Пульс 1800? Скорее всего, кто-то случайно нажал лишний ноль при вводе, и на самом деле там 180. Лейкоциты 500?
Возможно, лаборант перепутал единицы измерения.
Если это техническая ошибка — исправьте её и задокументируйте исправление. Опишите в разделе «Материалы и методы», что данные прошли проверку на ошибки ввода.
Шаг 2: Если это не опечатка — признайте реальность
Пациент с показателем, который в 5 раз выше нормы, — это реальный клинический случай. Может быть, редкий. Может быть, тяжёлый. Но он существует. И если он попал в вашу выборку по тем же критериям включения, что и все остальные, — у вас нет права его выбросить.
Более того: именно такие случаи часто несут в себе самую ценную информацию. Аномалии — это сигналы. Иногда они указывают на новые подтипы заболевания, на нераспознанные факторы риска, на особенности течения патологии, которые никто раньше не описывал.
Шаг 3: Смените метод анализа
Если выбросы реальны, не пытайтесь «причесать» данные. Поменяйте инструмент.
🔸 Вместо среднего арифметического используйте медиану. Медиане абсолютно всё равно, есть ли у вас выбросы. Она показывает «типичное» значение, которое делит выборку пополам.
🔸 Вместо t-теста Стьюдента (параметрический, чувствителен к выбросам) используйте критерий Манна–Уитни (непараметрический, устойчив к аномалиям).
🔸 Вместо ANOVA — критерий Краскела–Уоллиса.
🔸 Вместо корреляции Пирсона — корреляцию Спирмена.
Эти методы спроектированы для работы с «неидеальными» данными. Они дадут вам корректный результат без необходимости что-либо удалять.
Когда выброс всё-таки можно исключить (легально)
Есть единственный сценарий, когда исключение выброса не будет фальсификацией: если критерии исключения были прописаны до начала сбора данных.
Например, в протоколе исследования вы заранее указали: «Пациенты со скоростью клубочковой фильтрации менее 30 мл/мин исключаются из анализа» или «Измерения с техническими артефактами (по заключению независимого эксперта) не учитываются».
Тогда — и только тогда — вы можете убрать данные, если есть документальное подтверждение, что пациент подпадает под заранее оговорённый критерий исключения. Но если вы увидели выброс после анализа и решили: «
А давайте-ка я его уберу, а то некрасиво» — это манипуляция.
Выбросы — это не враги, это сигналы
Самое важное, что нужно понять: аномальные значения — не мусор. Это информация. Иногда — самая ценная.
В 2019 году анализ выбросов в базе пациентов с COVID-19 выявил атипичные формы течения, которые легли в основу отдельного протокола ВОЗ. Ваш пациент с аномальным показателем может оказаться ключом к новому пониманию болезни. Или, как минимум, поводом для отдельного анализа подгрупп, для выделения фенотипов, для формулировки гипотез на будущее.
Не бойтесь выбросов. Изучайте их.
Что делать прямо сейчас
Если вы сейчас работаете над диссертацией и в вашей базе есть «проблемные» пациенты — не удаляйте их. Сделайте следующее:
🔸 Постройте boxplot (диаграмму «ящик с усами») — она визуально покажет все выбросы.
🔸 Проверьте первичные данные на технические ошибки.
🔸 Если ошибок нет — рассчитайте описательную статистику с медианой и интерквартильным размахом (вместо среднего и стандартного отклонения).
🔸 Примените непараметрические тесты для проверки гипотез.
🔸 Оп
ишите в разделе «Результаты», что в выборке присутствуют выбросы, и именно поэтому вы использовали робастные методы анализа.
Это честно. Это научно. Это защитит вас от обвинений в манипуляции данными.
А если вам нужна помощь в выборе методов, в построении корректных графиков, в обосновании статистических решений — напишите нам. Мы проведём аудит вашей базы, найдём все потенциальные «красные флаги» для рецензентов и предложим легальные способы анализа.
Подробнее о наших услугах: https://statobrabotka.ru
Мы в ВКонтакте: https://vk.com/centerstatresearch
Выбросы в данных — это не приговор. Это возможность показать, что вы владеете статистикой на уровне выше, чем «Delete и пересчитать».
Сохраняйте статью. Пересылайте коллегам, которые сейчас мучаются с «кривыми» цифрами. И помните: удалить нельзя оставить — запятая стоит после слова «нельзя».
Комментарий: Что вы обычно делаете с пациентами, которые сильно выбиваются из общей картины? Делитесь в комментариях — обсудим ваши кейсы! Если запутались в аномалиях своей выборки, пишите на info@statobrabotka.ru — разберём вашу базу без фальсификаций.