Найти тему

Базовые ошибки при построении графиков на примере датасета TeachingRatings в RStudio

1) Путаница дискретной и непрерывной шкалы. Если у нас переменная принимает значения 1 и 0, то шкала должна быть дискретной. Выход: ставим формат "as.character" перед переменной.


2)
Проблемы с заливкой. Если у нас график точечный (например, диаграмма рассеивания), то используем параметр color, а если график geom_col(), то есть столбиковая диаграмма, то используем параметр fill.

-2


3)
Накопление лишнего. Зачастую geom_col не понимает, что надо разделить страны/наблюдения/возраст по каким-то категориям. Он считает сумму всех возрастов в выборке и это абсолютно не репрезентативно. Выход: перейти к средним/медианам.

-3


4)
Различия между geom_col и geom_bar.
geom_bar() - аналог гистограммы => значение y не нужно задавать.
geom_col() - аналог столбиковой диаграммы => необходимо задавать y.

Для удобства восприятия код опубликован на RPubs.

#graph_R
#ggplot2