Найти в Дзене
Clever Python

Аналитика данных. 5 правил по формированию графиков, гайд по визуализации данных.

Оглавление

Как строить красивые графики или аналитики любят глазами.

В статье мы рассмотрим типы визуализации данных. Какие бывают графики и с какими данными их уместно применять, а с какими нет, как сделать дашборд информативным и профессиональным.

Основные типы визуализации помогут сделать дашборды/отчеты более читаемыми и полезными для анализа. Картиночки, кто не любит картиночки?

Этап 1. Общие вопросы, рекомендации

Вопросы, на которые должен ответить аналитик, прежде чем делать какие-либо отчеты:

1. Кто является целевой аудиторией этого отчета менеджмент или другие аналитики? Как много пользователей отчета с ним будут работать?
2. На какие вопросы должен отвечать отчет, и какие решения планируется принимать с его помощью?
3. Как быстро нужен этот отчет и какова цена ошибки?
4. Как часто отчет должен обновляться? У кого должен быть к нему доступ?
5. Есть ли у нас нужные данные? Где они хранятся? Насколько сложно их получить?

Есть несколько пунктов, которых стоит придерживаться при выборе инструментов визуализации:

  • Самые важные визуализации располагайте в левом верхнем углу
  • Оформляйте все визуализации в едином стиле
  • Используйте максимум 6–8 цветов и кодируйте одинаковые измерения одинаковыми цветами на разных графиках
  • Прежде, чем добавлять визуальный эффект, убедитесь, что он поможет лучше ответить на вопрос, поставленный перед визуализацией
  • Удаляйте визуальный мусор и помните, что сначала данные, а потом эстетика
  • Округляйте цифры там, где это применимо. Никому не нужно знать что в среднем продаж было 7.7762876478 на каждого sales-мэнеджера
  • Из названия графиков должна быть понятна их цель
  • Не пытайтесь объять необъятное — одна страница должна помещаться на один экран
  • Всегда пишите документацию к своему отчету. Гигиенический минимум — перечень и расшифровка используемых метрик

Правило 0. Правильно выбирайте график для представления

На рисунке краткий мануал по выбору визуализации =) . Схема действительно информативная и может помочь определиться при творческом ступоре.

схема выбора визуализации
схема выбора визуализации

На самом деле эта схема взята из одной из первых зарубежных книг по работе с данными и гуляет по всему интернету с разными преобразованиями, вот например ее старый вариант:

схема выбора визуализации
схема выбора визуализации

Как видно с течением времени колоссальных изменений не произошло, разве что добавились геокарты.

Поэтому на ней мы подробно останавливаться не будем.

Правило 1. Для одних и тех же данных не всегда достаточно одного графика. Убедитесь в полноте представления

Не отходя от кассы, рассмотрим пример.

Представление одних и тех же данных на нескольких графиках
Представление одних и тех же данных на нескольких графиках

Выше приведен график уникального количества банков от количества уникальных карт клиентов, соответственно каждая точка - клиент.

Основная задача данного графика увидеть распределение и выявить аномалии.

Если мы построим только левый график, мы увидим что некоторые клиенты выбиваются из общего числа, но не сможем понять - нормально это или нет, вдруг они распределились поровну и на самом деле это распределение бедный-средний класс-богатый?

Для этого мы строим второй график, величина круга характеризует количество клиентов попавших в эту область и видим, что большинство все-таки обходится одной картой одного банка.

Разбивка на группы проходила методом кластеризации и третий график здесь исключительно для того, чтобы можно было увидеть цвет кластера.

Если требуется показать формирование групп и оценить распределение - используйте точечную диаграмму или пузырьковую диаграмму (где размер точки зависит от третьего параметра)

Столбчатой диаграммы или бара (bar) в этом случае недостаточно и она могла бы показать только распределение количества карт по пользователям

распределение количества уникальных карт по пользователям
распределение количества уникальных карт по пользователям

Для второго и третьего точечного графика внимательный читатель заметит, что он охватывает не всю область, а гораздо меньший масштаб, отсюда второе правило.

Правило 2. Правильно выбирайте масштаб.

Всегда выбирайте масштаб для представления данных, на примере выше видно, что при наличии явно выраженных отклонений от среднего оценить всю выборку представляется невозможным.

Вариант 1. Наличие слишком большого разброса в величине.

В этом случае прибегаем к правилу 1 и показываем несколько областей одних данных

Таким образом мы можем увидеть распределение между сопоставимыми величинами.

Вариант 2. Сопоставимые данные

К сожалению при представлении сопоставимых по величине данных все равно возникает проблема масштабирования. Посмотрим распределение доли количества продаж от плана по подразделениям.

Распределение процента выполнения плана продаж
Распределение процента выполнения плана продаж

Вроде все подразделения отработали хорошо, но давайте увеличим график и построим его для значений от 90%

Распределение процента выполнения плана продаж, масштаб
Распределение процента выполнения плана продаж, масштаб

И теперь мы можем увидеть что есть максимально продуктивная точка и наименее продуктивная.

Не стоит недооценивать масштаб, ведь только на основании представления одних и тех же цифр можно сделать два вывода:

1. Все хорошо, все работают отлично

2. Есть отстающие магазины и нужно принять меры аналогичные в магазине №4

Правило 3. Всегда используйте легенду.

Часто приходится возвращаться к отчетам спустя какое-то время, и вспомнить, что означала эта кривая, а что этот цвет точек, просто невозможно. Так же ваши отчеты будут смотреть коллеги и зачастую далекие от аналитики, поэтому всегда оставляйте подписи, комментарии и , при необходимости краткое текстовое описание происходящего.

Подписи должны быть понятными и читаемыми.

Пример наличия легенды
Пример наличия легенды

На графике выше каждый параметр подписан полностью, без сокращений и условностей вроде пар.1, пар.2, пар.3

Правило 4. Всегда проверяйте данные на корректность и адекватность.

на графике выше изображен % отсутствия данных по строкам, очевидно выбивается один параметр, при ближайшем рассмотрении оказывается, что это несущественно и по факту все пустые поля можно заменить нулями.

В таком случае картина распределения уже выглядит иначе

Отфильтрованные данные
Отфильтрованные данные

Ее проще воспринимать и есть возможность оценить другие параметры

Правило 5. Не перегружайте графики.

Последнее правило является более общим, не стоит добавлять в график сотни подписей, за которыми не будет видно основных линий, но при этом если подписи есть они так же должны быть читаемы и видны без приближения.

Не стоит загружать на один лист более 5-6 графиков и диаграмм. В противном случае уследить за всем просто невозможно и важные данные просто теряются.

Ну и естественно все должно быть органично, к счастью сейчас в каждой BI системе инструменты визуализации красиво оформлены по умолчанию, есть возможности настройки.

Подводя итоги:

0. Правильно выбирайте график для представления.

1. Для одних и тех же данных не всегда достаточно одного графика. Убедитесь в полноте представления.

2. Правильно выбирайте масштаб.

3. Всегда используйте легенду.

4. Всегда проверяйте данные на корректность и адекватность.

5. Не перегружайте графики.