Найти тему

Выбрасывать ли выбросы?

Будут ли совместимы результаты, полученные у больных в возрасте 40-60 лет с результатами, полученными у 90-летнего? Вряд ли. Обычно возраст сильно влияет на показатели здоровья.

                  Выбросы на ящичной диаграмме, построенной в Статтех
Выбросы на ящичной диаграмме, построенной в Статтех

Значения показателя, существенно отличающиеся от диапазона значений остальных наблюдений, называются выбросами, или экстремальными значениями. Они могут быть как среди бОльших значений (как в нашем примере — 90 лет), так и среди меньших (например, если бы в нашу выборку был включён 20-летний пациент).

Какие виды выбросов существуют?

«Мягкие» (близкие) и «жесткие» (далекие). При определении выбросов по популярному методу Тьюки, «мягкие» выбросы - это те, которые имеют значения в диапазоне от 1,5 до 3 интерквартильных размахов выше верхнего или ниже нижнего квартиля. «Жесткие» выбросы удалены от значений квартилей на расстояние более 3 интерквартильных размахов.

❗️Условием применения метода Тьюки является распределение данных, близкое к нормальному. В случае «ненормального» распределения для выявления выбросов применяются более сложные методы, например, кластерный анализ. И выбросы в этом случае могут находиться как среди минимальных или максимальных значений, так и в средней части распределения.

Как обозначаются выбросы?

На ящичной диаграмме - box-plot - они выглядят как кружочки, точки, звездочки выше или ниже «усов ящика». Иногда «мягкие» и «жесткие» выбросы обозначаются по-разному: «мягкие» - светлыми кружочками, а «жесткие» - темными кружочками или звездочками.

                 «Мягкие» и «жесткие» выбросы на ящичной диаграмме, построенной в SPSS
«Мягкие» и «жесткие» выбросы на ящичной диаграмме, построенной в SPSS

Главный вопрос: что делать с выбросами?

🔺 Часто выбросы появляются вследствие ошибки ввода данных! Например, при указании уровня глюкозы в крови забыли поставить запятую и получилось 545 вместо 5,45. Найти такие «выбросы-ошибки» легко с помощью сортировки или вывода максимальных и минимальных значений.

🔺 Выбросы можно удалить из базы, если они выявлены для независимых, факторных признаков, и их наличие делает изучаемую выборку неоднородной. Значения, которые должны остаться, указываются как критерии включения.

В приведенном выше примере можно указать как критерий включения возраст 40-60 лет. Тогда пациенты в возрасте 20 или 90 лет будут исключены из исследования.

🔺 Наблюдения с экстремальными значениями зависимых, результативных признаков удалять чаще всего неверно. В ряде случаев их удаление может быть даже признано фальсификацией. Они представляют интерес и должны учитываться при анализе.

Например, при оценке длительности лечения, большинство пациентов находились в стационаре от 7 до 15 дней. Но в двух случаях лечение затянулось до 23 и 25 дней. Это важные случаи, требующие анализа и изучения причин такого долгого лечения.

🔺 Некоторые статистические величины и методы позволяют игнорировать выбросы. Это свойство называется робастностью.

Например, медиана - робастная величина, почти не зависящая от выбросов. А вот среднее арифметическое - неробастный показатель, так как сильно меняется при их наличии.

Чем отличаются робастные оценки от неробастных?

Представим ряд значений показателя:

1, 2, 3, 4, 5.

Среднее значение равно 3, медиана тоже равна 3.

Меняем значение 5 на 50. Оно будет очевидным выбросом.

Среднее значение сильно изменится и составит 12, медиана останется прежней, равной 3.

Поэтому, если у показателя есть выбросы, описательную статистику лучше выполнить с помощью медиан и квартилей, а сравнительный или корреляционный анализ - с помощью непараметрических ранговых методов, которые также обладают робастностью.

Разберём задачу:

Определите с помощью метода Тьюки, являются ли выбросами значения показателей A, B, C или D в прилагаемой базе данных.

                                              Распределение рядов A, B, C и D
Распределение рядов A, B, C и D

Отметим, что во всех 4 рядах значения медиан и квартилей одни и те же, несмотря на сильно различающиеся максимальные значения - от 13 до 29. Вот почему такую описательную статистику называют робастной!

Итак, в каждом ряду:

🔺нижний квартиль Q1 равен 4,

🔺верхний квартиль Q3 равен 10,

🔺ИКР составляет 10-4=6.

Считаем диапазоны для определения выбросов:

🔹1,5 ИКР = 6*1,5 = 9

🔹3 ИКР = 6*3 = 18.

Согласно методу Тьюки:

«Мягкими» выбросами будут все значения в диапазоне выше Q3 + 1,5 ИКР до Q3 + 3 ИКР, или: выше 19 до 28.

«Жесткими» выбросами будут все значения в диапазоне выше Q3 + 3 ИКР, или выше 28.

Теперь нам легко ответить на задания:

✅ Ряд А: максимальное значение 13. 13<19 - следовательно, выбросом не является.

✅ Ряд B: максимальное значение 19. 19=19 - выбросом не является. Выбросы - только те значения, которые превышают 1,5 ИКР.

✅ Ряд С: максимальное значение 20. 20>19, но не превышает 28, поэтому является «мягким» выбросом.

✅ Ряд D: максимальное значение 29. 29>19 - является выбросом. При этом 29>28 - значит является еще и «жестким» выбросом.

Правильные ответы: в рядах С и D - есть выбросы, в ряду D - «жесткие» выбросы.

Ответ может быть также проиллюстрирован графически, с помощью ящичных диаграмм.

На рисунке можно увидеть 4 «ящика», над «ящиком» С - кружочек, соответствующий «мягкому» выбросу 20. Над «ящиком» D - звездочка, соответствующая «жесткому» выбросу 29.

        Распределение данных в рядах A, B, C, D, показанное с помощью ящичных диаграмм
Распределение данных в рядах A, B, C, D, показанное с помощью ящичных диаграмм