Найти в Дзене
Statobrabotka

Выбросы в медицинских данных: удалять или оставлять?

Почти в каждом исследовании наступает момент, когда в таблице появляется значение, которое выбивается из общей картины.
Слишком большое. Слишком маленькое. Не похожее на остальные.
Первая реакция обычно эмоциональная. Возникает мысль: наверное, это ошибка. Может быть, пациент особенный. Может быть, что-то пошло не так при измерении. А иногда — просто хочется, чтобы этого числа не было, потому что

Почти в каждом исследовании наступает момент, когда в таблице появляется значение, которое выбивается из общей картины.

Слишком большое. Слишком маленькое. Не похожее на остальные.

Первая реакция обычно эмоциональная. Возникает мысль: наверное, это ошибка. Может быть, пациент особенный. Может быть, что-то пошло не так при измерении. А иногда — просто хочется, чтобы этого числа не было, потому что оно портит стройность результатов.

Именно здесь автор оказывается перед сложным решением.

Удалить выброс — значит сделать данные более аккуратными. Средние станут ровнее. Графики — симпатичнее. Статистические тесты могут показать более выраженные различия. Работа будет выглядеть понятнее.

Но вместе с этим возникает главный вопрос: имеем ли мы право так поступать?

В медицинских исследованиях выбросы встречаются постоянно. Биология человека вариабельна. Пациенты отличаются по возрасту, сопутствующим заболеваниям, реакции на терапию. Иногда именно крайние значения и являются наиболее интересными с клинической точки зрения.

-2

То, что кажется неудобным для статистики, может быть важным для науки.

Комиссия прекрасно понимает эту особенность. Поэтому сам факт наличия выбросов редко вызывает удивление. Гораздо больше внимания уделяется тому, как исследователь с ними обошёлся.

Если крайние значения просто исчезают из анализа без объяснения, это почти всегда порождает вопросы. Почему они были исключены? На каком основании? Повлияли ли они на результат? Что произойдёт, если вернуть их обратно?

-3

И в этот момент автор может оказаться в уязвимой позиции.

Иногда выброс действительно связан с технической ошибкой: некорректный ввод, нарушение протокола, дефект измерения. В таких случаях его исключение оправдано. Но это должно быть аргументировано и описано.

Иногда же значение полностью соответствует клинической реальности. И тогда удаление превращается в искажение данных.

Сложность ситуации в том, что универсального ответа нет. Нельзя сказать «всегда оставлять» или «всегда удалять». Решение должно вытекать из понимания природы показателя и дизайна исследования.

-4

Зрелый статистический подход делает эту логику прозрачной. Он не прячет проблему, а показывает её. Он объясняет, какие данные были рассмотрены, какие особенности выявлены и каким образом они учитывались в анализе.

Когда автор демонстрирует такую открытость, доверие к работе возрастает.

Интересно, что сами исследователи часто замечают: после того как появляется ясная стратегия обращения с выбросами, уходит напряжение. Больше не нужно надеяться, что комиссия их «не заметит». Наоборот, можно спокойно обсудить их влияние и показать, что выводы устойчивы.

Это меняет тон защиты.

Выбросы перестают быть врагами. Они становятся частью реальности, с которой умеют работать.

-5

Если при подготовке диссертации вы сталкиваетесь с крайними значениями и не уверены, как корректно поступить, лучше определить эту стратегию заранее. Тогда во время защиты обсуждение будет строиться вокруг науки, а не вокруг подозрений в манипуляции.

Больше материалов о том, как принимать статистические решения в сложных ситуациях и оформлять их так, чтобы они выглядели убедительно для комиссии, публикуется в группе:

https://vk.ru/centerstatresearch