Найти в Дзене
Человек наук

Как визуализировать данные? Виды графиков

Оглавление

Данные окружают нас повсюду. Цены на доллар и бензин, количество новорождённых в стране, температура на улице. Цифры сыпятся со всех сторон! Но гораздо приятнее смотреть на красивые картинки, чем на таблицы с числами. Как же красиво отобразить эти данные?

В этой статье речь пойдёт о самых распространённых видах визуализации. Вы поймёте, как нужно читать графики и какой из них лучше всего объяснит сухие числа

Данные — это красиво
Данные — это красиво

Гистограмма

Представьте, что у вас есть данные по зарплатам всех людей в стране. Это может быть таблица Excel с единственным столбиком. Смотреть на миллионы чисел вам уж точно не хочется! Но интересно разбить людей на категории по зарплате. Берём одну «корзину» и складываем туда все строки таблицы, в которых записано меньше 15,4 тысяч рублей. Во вторую — людей с зарплатой от 15,4 до 21,8 тысяч и так далее. Получим такую картину:

Визуализация от Коммерсантъ, 2017 год. Современные данные можно найти на сайте росстата
Визуализация от Коммерсантъ, 2017 год. Современные данные можно найти на сайте росстата

Хотелось бы увидеть нормальное распределение — большую часть людей в центре, немного бедных людей и богачей по краям

-3

К сожалению, это не так: левый «хвост» реального распределения тяжеловат. Благодаря гистограмме мы это увидели, дальше осталось лишь думать и делать выводы

Если данных совсем много, можно не визуализировать отдельные «корзины» в гистограмме, а смотреть только на сглаженную кривую (как на иллюстрации выше). Например, можно посмотреть на то, как изменялся доход на душу населения во времени:

-4

Стоблчатая диаграмма (bar plot)

В прошлом примере у нас было много чисел в одном столбце таблицы. Это было одно большое распределение, которое мы для удобства разбили на «корзины». Но иногда такие корзины есть в самих данных. Например, если бы у нас были данные о количестве людей, работающих в разных отраслях. Тогда мы бы смогли для каждой отрасли высотой столбца изобразить, как много человек в ней трудоустроены. Это и называется столбчатая диаграмма!

Процент использования разных социальных сетей в мире в 2010-2019 годах
Процент использования разных социальных сетей в мире в 2010-2019 годах

Круговая диаграмма (pie chart)

Иногда данные составляют доли от чего-то целого. В примере выше, все люди, работающие в разных отраслях, в сумме составляют всё работающее население страны. Есть соблазн изобразить такие данные в виде круга и раскрасить секторы в разные цвета. Площадь сектора будет изображать количество людей, работающих в отрасли. Это называется «круговая», а на английском «пироговая» диаграмма

Ещё один пример — рекомендованная диета
Ещё один пример — рекомендованная диета

Но такому соблазну лучше не поддаваться! Круговые диаграммы ужасны. Они красивы, но, как оказывается, наш мозг довольно плохо на вид оценивает площадь. Особенно если для секторов выбраны контрастные цвета или график сделан трёхмерным и под наклоном. Вот отличная иллюстрация того, как непросто оценивать круговые диаграммы:

-7

На первом графике сектора возрастают по площади от красного к чёрному. На втором они почти одинакового размера. А на третьем — наоборот, убывают. Но на первый взгляд диаграммы кажутся почти одинаковыми! Чтобы увидеть различия приходится внимательно в них вглядываться. А мы как раз хотим упростить понимание данных. Сравните с нижней частью рисунка чтобы понять, как просто ту же информацию извлечь из стобликов

Гифка о том, как улучшить такой график:

-8

Коротко — лучше не использовать круговые диаграммы вообще, если только вы не хотите намеренно запутать людей. Но иногда их использование уместно. Например, мне кажется удобной визуализация места на диске в Ubuntu

Можно понять, сколько места занимает каждая папка и её подпапки
Можно понять, сколько места занимает каждая папка и её подпапки

Линейный график

Отлично подходит, когда между точками на графике есть какая-то связь. Например, временная. Когда вы можете сказать, что в разных точках что-то растёт или падает, по отношению к предыдущим, это именно тот случай, когда нужно использовать линейный график!

График количества смертей от лесных пожаров по годам
График количества смертей от лесных пожаров по годам

Цены акций, количество денег у вас на счету, количество заболевших какой-нибудь болезнью — всё это можно визуализировать именно так. Иногда для тех же данных используются и другие методы. Например, уже знакомая нам столбчатая диаграмма, где все столбики помещены друг на друга:

-11

Или изображать визуализировать данные как площади, помещая их друг на друга:

-12

У этих видов графиков есть свои плюсы и минусы, но не будем останавливаться на них в этой статье. Можете предположить в комментариях, когда такая визуализация будет хорошей, а когда непонятной или некрасивой!

Точечный график (scatter plot)

На русском также называется «диаграмма рассеяния». Этот график помогает понять зависимость одной переменной от другой. Например, по одной оси откладывается площадь дома, а по второй его цена:

-13

Видно, что в целом, чем больше площадь дома, тем дороже он стоит (переменные коррелируют). Визуально видно и исключения: по цене ниже 200 тысяч есть дома с очень большой площадью

Такой вид графика хорош ещё и тем, что он показывает сырые данные, как они есть. Иногда графики отображают только средние значения или разброс точек вокруг средних. На диаграмме рассеяния же мы видим каждый дом в виде точки!

Иллюстрация ниже показывает, почему это может быть важно. У всех графиков на ней одинаковые средние по обеим осям. Более того, на всех графиках одинаковая дисперсия и корреляция между переменными. Не пугайтесь, если не знаете термины, они просто означают разброс данных и связь между переменными

Все эти данные «одинаковые», если смотреть на средние, дисперсию или корреляцию
Все эти данные «одинаковые», если смотреть на средние, дисперсию или корреляцию

Но благодаря простому графику очевидно, насколько эти данные разные!

Недостаток такой визуализации в том, что она позволяет изобразить только две переменные. Если их в ваших данных три, то можно попробовать построить трёхмерный график. А если четыре? Такое изображение поймут только существа из фильмов Кристофера Нолана. А если переменных десять, то даже они не справятся

Хотя, используя разные цвета и формы точек, всё же можно изобразить на одном рисунке много переменных. На графике ниже изображены данные по возрасту актёров и актрис в фильмах. Каждая точка обозначает возраст главного актёра (по горизонтальной оси) и возраст главной актрисы (по вертикальной). Размер круга обозначает бюджет фильма, а цвета — конкретных актёров

-15

Видно, что в актёры обычно старше актрис. Кажется, что это различие ещё больше выражено в высокобюджетных фильмах. А цвета позволяют проследить карьеру каждого актёра. Целые четыре переменные мы уместили на плоскости! И смогли увидеть в данных много интересного

На этом сегодняшняя подборка завершается. Это были только самые базовые виды графиков. В арсенале аналитика есть также скрипичные графики, «ящики с усами» и многое другое! Если хотите продолжения, просто поделитесь этим постом с друзьями :)

А также заглядывайте к нам в телеграм-канал