Найти в Дзене

Что нужно знать о визуализации данных: от Excel до Power BI

Всем привет! Я - практикующий исследователь данных, и на этом канале делюсь тем, что реально работает в IT. Никакой сухой теории, только личный опыт, рабочие инструменты и грабли, на которые я уже наступил за вас. Рад, что вы здесь!🧸 Одна из истин, которая пришла со временем - выбор инструмента и типа графика влияет на понимание данных. За почти 4 года работы попробовал разные инструменты и понял что нужно знать на разных уровнях. Вот что нужно знать о визуализации данных на разных уровнях. Разбил по инструментам и добавил примеры из работы. В последнее время прохожу много собеседований, и к сожалению большинство компаний всё еще работают на Power BI и Tableau, но мне по честному более по душе Superset и Data Lens, но возможно я прохожу собесы не в тех компаниях... 🙃 Excel это то с чего начинают большинство аналитиков. Простой, знакомый, доступный. Быстрый анализ: Простые отчеты: Работа с небольшими данными: **Кстати, вчера проходил собеседование 😂
До сих пор вспоминаю и улыбаюсь.
Оглавление

Всем привет! Я - практикующий исследователь данных, и на этом канале делюсь тем, что реально работает в IT. Никакой сухой теории, только личный опыт, рабочие инструменты и грабли, на которые я уже наступил за вас. Рад, что вы здесь!🧸

Одна из истин, которая пришла со временем - выбор инструмента и типа графика влияет на понимание данных. За почти 4 года работы попробовал разные инструменты и понял что нужно знать на разных уровнях.

Вот что нужно знать о визуализации данных на разных уровнях. Разбил по инструментам и добавил примеры из работы. В последнее время прохожу много собеседований, и к сожалению большинство компаний всё еще работают на Power BI и Tableau, но мне по честному более по душе Superset и Data Lens, но возможно я прохожу собесы не в тех компаниях... 🙃

Картинка
Картинка

Уровень 1: Excel (базовый)

Excel это то с чего начинают большинство аналитиков. Простой, знакомый, доступный.

Когда использовать

Быстрый анализ:

  • Нужно быстро посмотреть данные
  • Простые расчеты и графики
  • Разовые задачи

Простые отчеты:

  • Регулярные отчеты для руководства
  • Небольшие объемы данных
  • Стандартные форматы

Работа с небольшими данными:

  • До 100,000 строк комфортно
  • Больше уже тормозит
  • Для больших данных лучше другие инструменты

**Кстати, вчера проходил собеседование 😂
До сих пор вспоминаю и улыбаюсь. Компания (точнее вакансия, да и на самом собеседовании это подтвердилось) прям требует отличные знания Excel и Google Sheets для работы с большими данными 😄🤦🏽‍♂️ Простите, что смеюсь, но я правда считаю, что если компания растет, то стоит хотя бы немного погрузиться в тему перед поиском аналитика. Оказалось, что "большие данные" у них - это примерно 100 тысяч строк )))) Ну ладно, думаю я, в Google Sheets вполне комфортно можно работать до 200 тысяч строк (хотя вместимость вроде до 5 млн, но не суть), так что без БД они пока реально могут жить.
Но самое интересное - они тянут данные напрямую из API в Google Таблицы. В итоге я просто разложил всё по полочкам и фактически провёл им небольшой аудит. Со мной такое впервые, но, похоже, это совсем не редкая история. Всем добра 🙌🏽

Что уметь

Создавать базовые графики:

  • Линейные для трендов
  • Столбчатые для сравнения
  • Круговые для долей (осторожно!)
  • Точечные для корреляций

Пример из работы:

Данные продаж по месяцам → линейный график
Сравнение категорий → столбчатый график
Доли в общем объеме → круговой (но лучше столбчатый)
О как
О как

Настраивать оси и подписи:

  • Правильные названия осей
  • Понятные подписи
  • Правильный масштаб
  • Форматирование чисел

Форматировать графики:

  • Цвета для категорий
  • Легенды
  • Заголовки
  • Сетка для читаемости

Создавать сводные таблицы с графиками:

  • Сводная таблица для агрегации
  • График на основе сводной
  • Автоматическое обновление

Ограничения

Медленно на больших данных:

  • Больше 100,000 строк уже проблематично
  • Формулы тормозят
  • Графики долго строятся

Ограниченные возможности кастомизации:

  • Стандартные типы графиков
  • Сложно сделать что-то нестандартное
  • Ограниченные цветовые схемы

Сложно автоматизировать:

  • Нужно делать вручную
  • Нет API для автоматизации
  • Сложно интегрировать с другими системами

Уровень 2: Python (Matplotlib, Seaborn)

Python это следующий уровень. Для автоматизации и работы с большими данными.

Когда использовать

Автоматизация отчетов:

  • Регулярные отчеты
  • Генерация графиков из данных
  • Интеграция в процессы

Работа с большими данными:

  • Миллионы строк
  • Сложные вычисления
  • Обработка перед визуализацией

Кастомная визуализация:

  • Нестандартные графики
  • Сложные композиции
  • Полный контроль над внешним видом

Что уметь

Строить базовые графики в Matplotlib:

import matplotlib.pyplot as plt

# Линейный график
plt.plot(df['date'], df['sales'])
plt.title('Продажи по дням')
plt.xlabel('Дата')
plt.ylabel('Продажи')
plt.show()

Использовать Seaborn для статистических графиков:

import seaborn as sns

# Box plot для распределений
sns.boxplot(data=df, x='category', y='price')

# Scatter plot с регрессией
sns.regplot(data=df, x='price', y='quantity')

# Heatmap для корреляций
sns.heatmap(df.corr(), annot=True)

Настраивать стили и цвета:

# Установка стиля
sns.set_style("whitegrid")
plt.style.use('seaborn-v0_8')

# Цветовые схемы
sns.set_palette("husl")
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1']

Сохранять графики в файлы:

plt.savefig('sales_chart.png', dpi=300, bbox_inches='tight')
plt.savefig('sales_chart.pdf') # векторный формат
Вау
Вау

Базовые типы графиков

Линейные (для трендов):

  • Временные ряды
  • Изменения во времени
  • Тренды и паттерны

Столбчатые (для сравнения):

  • Сравнение категорий
  • Ранжирование
  • Изменения по периодам

Гистограммы (для распределений):

  • Распределение значений
  • Частота событий
  • Понимание данных

Scatter plot (для корреляций):

  • Связь между переменными
  • Кластеры данных
  • Выбросы

Box plot (для статистики):

  • Распределение и выбросы
  • Сравнение групп
  • Медиана и квартили

Уровень 3: Tableau / Power BI (продвинутый)

Это инструменты для дашбордов и презентаций. Профессиональный уровень.

Когда использовать

Интерактивные дашборды:

  • Для бизнеса
  • Регулярные отчеты
  • Интерактивное исследование данных

Презентации для бизнеса:

  • Красивые визуализации
  • Интерактивность
  • Профессиональный вид

Регулярные отчеты:

  • Автоматическое обновление
  • Публикация в интернете
  • Доступ для команды

Что уметь

Создавать дашборды:

  • Несколько графиков на одном экране
  • Связанные фильтры
  • Интерактивные элементы
  • Навигация между страницами

Настраивать фильтры и параметры:

  • Фильтры по датам
  • Выбор категорий
  • Параметры для расчетов
  • Динамические фильтры

Создавать вычисляемые поля:

  • Сложные расчеты
  • Условная логика
  • Агрегации
  • Форматирование

Публиковать и делиться отчетами:

  • Публикация в облаке
  • Настройка доступа
  • Обновление данных
  • Уведомления

Tableau

Сильные стороны:

  • Максимальная гибкость
  • Красивые графики
  • Мощные возможности
  • Большое сообщество

Слабые стороны:

  • Дорого (от $70/месяц)
  • Сложнее для новичков
  • Требует обучения
  • Может быть избыточным

Когда выбирать:

  • Нужна максимальная гибкость
  • Сложные визуализации
  • Презентации для клиентов
  • Когда бюджет позволяет

Power BI

Сильные стороны:

  • Интеграция с Microsoft
  • Дешевле (бесплатно для личного)
  • Проще для новичков
  • Хорошая документация

Слабые стороны:

  • Меньше гибкости чем Tableau
  • Привязка к Microsoft
  • Ограничения в бесплатной версии
  • Меньше возможностей кастомизации

Когда выбирать:

  • Работа в Microsoft экосистеме
  • Ограниченный бюджет
  • Нужны стандартные дашборды
  • Командная работа

Принципы хорошей визуализации

Это то что важно независимо от инструмента.

1. Выбирайте правильный тип графика

Тренды → линейный график:

  • Изменения во времени
  • Прогнозы
  • Сравнение трендов

Сравнение → столбчатый:

  • Категории
  • Периоды
  • Ранжирование

Распределение → гистограмма:

  • Частота значений
  • Понимание данных
  • Выбросы

Корреляция → scatter plot:

  • Связь переменных
  • Кластеры
  • Паттерны

Доли → столбчатый (не круговой!):

  • Круговые диаграммы плохо читаются
  • Столбчатые лучше для сравнения
  • Используйте круговые только для 2-3 сегментов

2. Избегайте лишнего

Убирайте ненужные элементы:

  • Лишние линии сетки
  • Декоративные элементы
  • Ненужные цвета
  • Перегруженные легенды

Минимум цветов:

  • 2-3 основных цвета
  • Контрастные оттенки
  • Семантические цвета (красный = плохо, зеленый = хорошо)

Четкие подписи:

  • Понятные названия осей
  • Единицы измерения
  • Легенды где нужно

3. Фокус на данных

Выделяйте важное:

  • Акценты на ключевых точках
  • Аннотации для контекста
  • Выделение трендов

Используйте аннотации:

  • Объяснение аномалий
  • Важные события
  • Контекст данных

Показывайте контекст:

  • Сравнение с прошлым
  • Бенчмарки
  • Целевые значения

4. Доступность

Контрастные цвета:

  • Достаточный контраст
  • Проверка на цветовую слепоту
  • Альтернативные способы различия (формы, текстуры)

Читаемые шрифты:

  • Достаточный размер
  • Простые шрифты
  • Хорошая читаемость

Понятные легенды:

  • Четкие названия
  • Логичный порядок
  • Достаточный размер

Типичные ошибки

Это то чего нужно избегать.

1. Круговые диаграммы с большим количеством сегментов

Проблема:

  • Сложно сравнивать сегменты
  • Маленькие сегменты нечитаемы
  • Непонятно что важнее

Решение:

  • Используйте столбчатую диаграмму
  • Группируйте маленькие сегменты
  • Используйте круговую только для 2-3 сегментов

2. Неправильный масштаб осей

Проблема:

  • Может вводить в заблуждение
  • Преувеличение различий
  • Скрытие важных изменений

Решение:

  • Всегда начинайте с нуля для столбчатых
  • Используйте логарифмическую шкалу когда нужно
  • Показывайте масштаб явно

3. Слишком много информации на одном графике

Проблема:

  • Перегружает восприятие
  • Сложно понять главное
  • Отвлекает от важного

Решение:

  • Разбивайте на несколько графиков
  • Фокус на одной идее
  • Используйте дашборды для множества метрик

4. Нечитаемые цвета

Проблема:

  • Плохой контраст
  • Цветовая слепота
  • Непонятные цвета

Решение:

  • Проверяйте на цветовую слепоту
  • Используйте контрастные цвета
  • Добавляйте текстуры или формы

Что учить в первую очередь

Для начинающих:

  1. Excel для базовых графиков - это база, с этого начинают все
  2. Python (Matplotlib/Seaborn) для автоматизации - нужно для работы с данными
  3. Один инструмент для дашбордов (Power BI/Superset/Data Lens/Tableau и др) - для презентаций

Для продвинутых:

  • D3.js для кастомной визуализации
  • Plotly для интерактивных графиков
  • Storytelling с данными
  • Продвинутые техники

Практические советы

  1. Начните с Excel. Это база для понимания визуализации. Освойте базовые графики, потом переходите к продвинутым инструментам.
  2. Изучите Python визуализацию. Это нужно для автоматизации. Matplotlib и Seaborn решают большинство задач.
  3. Выберите один инструмент для дашбордов. Не пытайтесь изучить все сразу. Power BI или Tableau - выберите один и освойте его.
  4. Практикуйтесь на реальных данных. Создавайте графики для своих проектов. Теория без практики бесполезна.
  5. Изучайте примеры хороших визуализаций. Tableau Public, Dribbble, Reddit r/dataisbeautiful - смотрите что делают другие, учитесь.
  6. Фокусируйтесь на ясности. Красота вторична. Главное чтобы график понятно передавал информацию.
  7. Тестируйте на аудитории. Показывайте графики коллегам, спрашивайте что понятно, что нет. Улучшайте на основе обратной связи.

Что делать дальше

Если вы только начинаете, начните с Excel и Python. Этого достаточно для большинства задач. НО, в 90% случаев в вакансиях аналитиков требуются инструменты BI, поэтому этот пункт я бы тоже указал прям в начале пути обучения.

Для изучения рекомендую:

  • Практику в Excel на реальных данных - освойте базовые графики
  • Курсы по Matplotlib/Seaborn - для автоматизации визуализации
  • Бесплатную версию Power BI для дашбордов - для презентаций и отчетов

!!!Выбирайте инструмент и тип графика исходя из задачи и аудитории. Начинайте с простого, усложняйте постепенно.

Я не претендую на последнюю инстанцию, я пишу о своём пути и опыте. Спасибо что дочитали до конца. Подпишитесь👇👇👇, ставьте лайки 👍🏽👍🏽👍🏽 впереди много интересных статей про навыки, инструменты, обучение, лайфхаки и пути аналитика.