Найти в Дзене

Типы "Ящиков с усами" в RStudio

Самые крутые (по мнению данной скромной редакции), репрезентативные, наглядные и простые графики для интерпретации распределения конкретных переменных – это ЯЩИКИ с усами (boxplot). Boxplot – альтернатива графику выше (ridge plot).
Однажды один мой друг сказал, знаешь интерпретацию ящиков с усами – владеешь миром. Это, конечно, утрировано, но благодаря ящикам с усами можно:
1) Увидеть разброс переменных посредством межквартильного размаха (разница между значением 3 квартиля и 1 квартиля)
2) Увидеть медиану
3) Отметить выбросы
4) Разделять выборку на категории и смотреть распределение по отдельным категориям. Распределение категорий должно быть показательным. Может случиться такая ситуация, что одна переменная распределена с матожиданием 0, а другая с матожиданием 1000 (пример №1). Соответственно, первый график с усами будет смотреться не показательно на фоне другого.
Пример №2 – корректный, так как можно сравнить категории (континенты) между собой по ожидаемой продолжительности

Самые крутые (по мнению данной скромной редакции), репрезентативные, наглядные и простые графики для интерпретации распределения конкретных переменных – это ЯЩИКИ с усами (boxplot). Boxplot – альтернатива графику выше (ridge plot).

Однажды один мой друг сказал, знаешь интерпретацию ящиков с усами – владеешь миром. Это, конечно, утрировано, но благодаря ящикам с усами можно:
1) Увидеть разброс переменных посредством межквартильного размаха (разница между значением 3 квартиля и 1 квартиля)
2) Увидеть медиану
3) Отметить выбросы
4) Разделять выборку на категории и смотреть распределение по отдельным категориям.

-2

Распределение категорий должно быть показательным. Может случиться такая ситуация, что одна переменная распределена с матожиданием 0, а другая с матожиданием 1000 (пример №1). Соответственно, первый график с усами будет смотреться не показательно на фоне другого.

Пример №2 – корректный, так как можно сравнить категории (континенты) между собой по ожидаемой продолжительности жизни. Так, Азия имеет наибольший межквартильный размах по ожидаемой продолжительности жизни, а медианное значение ожидаемой продолжительности жизни в Океании выше, чем на остальных континентах.

Посредством функции geom_jitter можно «сверху» ящика с усами построить наблюдения (
пример №3).

Использованный датасет – gapminder.

Для удобства восприятия код опубликован на RPubs.

#graph_R
#ggplot2