Будут ли совместимы результаты, полученные у больных в возрасте 40-60 лет с результатами, полученными у 90-летнего? Вряд ли. Обычно возраст сильно влияет на показатели здоровья.
Значения показателя, существенно отличающиеся от диапазона значений остальных наблюдений, называются выбросами, или экстремальными значениями. Они могут быть как среди бОльших значений (как в нашем примере — 90 лет), так и среди меньших (например, если бы в нашу выборку был включён 20-летний пациент).
Какие виды выбросов существуют?
«Мягкие» (близкие) и «жесткие» (далекие). При определении выбросов по популярному методу Тьюки, «мягкие» выбросы - это те, которые имеют значения в диапазоне от 1,5 до 3 интерквартильных размахов выше верхнего или ниже нижнего квартиля. «Жесткие» выбросы удалены от значений квартилей на расстояние более 3 интерквартильных размахов.
❗️Условием применения метода Тьюки является распределение данных, близкое к нормальному. В случае «ненормального» распределения для выявления выбросов применяются более сложные методы, например, кластерный анализ. И выбросы в этом случае могут находиться как среди минимальных или максимальных значений, так и в средней части распределения.
Как обозначаются выбросы?
На ящичной диаграмме - box-plot - они выглядят как кружочки, точки, звездочки выше или ниже «усов ящика». Иногда «мягкие» и «жесткие» выбросы обозначаются по-разному: «мягкие» - светлыми кружочками, а «жесткие» - темными кружочками или звездочками.
Главный вопрос: что делать с выбросами?
🔺 Часто выбросы появляются вследствие ошибки ввода данных! Например, при указании уровня глюкозы в крови забыли поставить запятую и получилось 545 вместо 5,45. Найти такие «выбросы-ошибки» легко с помощью сортировки или вывода максимальных и минимальных значений.
🔺 Выбросы можно удалить из базы, если они выявлены для независимых, факторных признаков, и их наличие делает изучаемую выборку неоднородной. Значения, которые должны остаться, указываются как критерии включения.
В приведенном выше примере можно указать как критерий включения возраст 40-60 лет. Тогда пациенты в возрасте 20 или 90 лет будут исключены из исследования.
🔺 Наблюдения с экстремальными значениями зависимых, результативных признаков удалять чаще всего неверно. В ряде случаев их удаление может быть даже признано фальсификацией. Они представляют интерес и должны учитываться при анализе.
Например, при оценке длительности лечения, большинство пациентов находились в стационаре от 7 до 15 дней. Но в двух случаях лечение затянулось до 23 и 25 дней. Это важные случаи, требующие анализа и изучения причин такого долгого лечения.
🔺 Некоторые статистические величины и методы позволяют игнорировать выбросы. Это свойство называется робастностью.
Например, медиана - робастная величина, почти не зависящая от выбросов. А вот среднее арифметическое - неробастный показатель, так как сильно меняется при их наличии.
Чем отличаются робастные оценки от неробастных?
Представим ряд значений показателя:
1, 2, 3, 4, 5.
Среднее значение равно 3, медиана тоже равна 3.
Меняем значение 5 на 50. Оно будет очевидным выбросом.
Среднее значение сильно изменится и составит 12, медиана останется прежней, равной 3.
Поэтому, если у показателя есть выбросы, описательную статистику лучше выполнить с помощью медиан и квартилей, а сравнительный или корреляционный анализ - с помощью непараметрических ранговых методов, которые также обладают робастностью.
Разберём задачу:
Определите с помощью метода Тьюки, являются ли выбросами значения показателей A, B, C или D в прилагаемой базе данных.
Отметим, что во всех 4 рядах значения медиан и квартилей одни и те же, несмотря на сильно различающиеся максимальные значения - от 13 до 29. Вот почему такую описательную статистику называют робастной!
Итак, в каждом ряду:
🔺нижний квартиль Q1 равен 4,
🔺верхний квартиль Q3 равен 10,
🔺ИКР составляет 10-4=6.
Считаем диапазоны для определения выбросов:
🔹1,5 ИКР = 6*1,5 = 9
🔹3 ИКР = 6*3 = 18.
Согласно методу Тьюки:
«Мягкими» выбросами будут все значения в диапазоне выше Q3 + 1,5 ИКР до Q3 + 3 ИКР, или: выше 19 до 28.
«Жесткими» выбросами будут все значения в диапазоне выше Q3 + 3 ИКР, или выше 28.
Теперь нам легко ответить на задания:
✅ Ряд А: максимальное значение 13. 13<19 - следовательно, выбросом не является.
✅ Ряд B: максимальное значение 19. 19=19 - выбросом не является. Выбросы - только те значения, которые превышают 1,5 ИКР.
✅ Ряд С: максимальное значение 20. 20>19, но не превышает 28, поэтому является «мягким» выбросом.
✅ Ряд D: максимальное значение 29. 29>19 - является выбросом. При этом 29>28 - значит является еще и «жестким» выбросом.
Правильные ответы: в рядах С и D - есть выбросы, в ряду D - «жесткие» выбросы.
Ответ может быть также проиллюстрирован графически, с помощью ящичных диаграмм.
На рисунке можно увидеть 4 «ящика», над «ящиком» С - кружочек, соответствующий «мягкому» выбросу 20. Над «ящиком» D - звездочка, соответствующая «жесткому» выбросу 29.