1) Путаница дискретной и непрерывной шкалы. Если у нас переменная принимает значения 1 и 0, то шкала должна быть дискретной. Выход: ставим формат "as.character" перед переменной.
2) Проблемы с заливкой. Если у нас график точечный (например, диаграмма рассеивания), то используем параметр color, а если график geom_col(), то есть столбиковая диаграмма, то используем параметр fill.
3) Накопление лишнего. Зачастую geom_col не понимает, что надо разделить страны/наблюдения/возраст по каким-то категориям. Он считает сумму всех возрастов в выборке и это абсолютно не репрезентативно. Выход: перейти к средним/медианам.
4) Различия между geom_col и geom_bar.
geom_bar() - аналог гистограммы => значение y не нужно задавать.
geom_col() - аналог столбиковой диаграммы => необходимо задавать y.
Для удобства восприятия код опубликован на RPubs.
#graph_R
#ggplot2