Руслан открыл кофейню для любителей книг. В ней можно купить кофе — и еще забрать книгу почти бесплатно. Работает это так: на сайте заведения люди оценивают книги в количестве чашек кофе. Человек выбирает книгу, оплачивает кофе — и забирает свой томик вместе с напитком (или несколькими).
Руслан нанимает аналитика Варю, чтобы найти важные закономерности в данных: хочет узнать, в какое время дня чаще пьют кофе, как часто берут книги старые и новые клиенты. Варя подбирает для этого разные визуализации.
Сразу оговоримся: пример ниже не учит вас серьёзной аналитике данных или выбору метрик. Мы выдумали его, чтобы было проще понять разницу в типах визуализации. Если вы хотите стать профи в аналитике данных, обратите внимание на курс «Аналитик данных» от Eduson
Линейная диаграмма показывает зависимость между переменными. Это классический вариант графика «X зависит от Y».
Например, зависимость продаж кофе от времени суток.
Гистограмма демонстрирует распределение одного набора данных. На ней, как и на линейной диаграмме, хорошо видны зависимости.
Рассматриваем выручку кофейни в разных месяцах.
Столбчатая диаграмма помогает сравнить сразу несколько категорий. Внешне она очень похожа на гистограмму.
Смотрим, что популярнее, — кофе с книгой или просто напиток, — и какая взаимосвязь вариантов с разными напитками.
Варя исследовала данные и обнаружила, что самые прибыльное время — с мая по август. Чтобы показать это Руслану, она построила гистограмму. В ней одна зависимость: выручки от месяца.
Далее Варя хочет понять, сколько денег приносит каждый вид кофе при обычной продаже и продаже за книги. Она будет сравнивать два параметра: вид кофе и вид продажи. Для этого Варе понадобится столбчатая диаграмма.
Круговые диаграммы показывают части целого. Они воспринимаются интуитивно, так как обычно круг ассоциируется со 100%. С помощью них легко показать, на продаже каких напитков кофейня делает основную часть выручки. Или какие жанры литературы предпочитают посетители — всё, что угодно.
Диаграммы рассеяния хорошо выявляют взаимосвязи между количественными данными. С их помощью Варя показала Руслану, что давние клиенты чаще покупают книги за кофе, чем новые.
Такие диаграммы — удачный способ показать корреляцию или кластеризацию. Особенно хорошо они работают на больших объемах данных.
Есть занятное исследование, в котором авторы посчитали, какие человеческие имена дают собакам чаще, а какие — реже. Результат как раз представлен в виде диаграммы рассеяния.
Зачем графики, если есть таблицы? Все проще!
Таблицы — не самая удачная форма визуализации. Они всегда требуют от зрителя анализа информации, а чаще всего от вас хотят уже готового вывода. Однако таблицы могут полезнее диаграмм, если вы демонстрируете сразу много параметров в печатной форме отчета.
В любом случае, если вы выбрали таблицу, присмотритесь к тепловым картам. Возможно, этот тип визуализации увеличит доступность данных и упростит анализ.
Существует множество способов представить данные. Но, скорее всего, вам хватит основных типов диаграмм. Лучше не усложнять.
Информацию визуализируют не только аналитики данных. Строили ли вы диаграммы и графики в работе? Расскажите о своём опыте в комментариях