Всем привет! Я - практикующий исследователь данных, и на этом канале делюсь тем, что реально работает в IT. Никакой сухой теории, только личный опыт, рабочие инструменты и грабли, на которые я уже наступил за вас. Рад, что вы здесь!🧸
Одна из истин, которая пришла со временем - выбор инструмента и типа графика влияет на понимание данных. За почти 4 года работы попробовал разные инструменты и понял что нужно знать на разных уровнях.
Вот что нужно знать о визуализации данных на разных уровнях. Разбил по инструментам и добавил примеры из работы. В последнее время прохожу много собеседований, и к сожалению большинство компаний всё еще работают на Power BI и Tableau, но мне по честному более по душе Superset и Data Lens, но возможно я прохожу собесы не в тех компаниях... 🙃
Уровень 1: Excel (базовый)
Excel это то с чего начинают большинство аналитиков. Простой, знакомый, доступный.
Когда использовать
Быстрый анализ:
- Нужно быстро посмотреть данные
- Простые расчеты и графики
- Разовые задачи
Простые отчеты:
- Регулярные отчеты для руководства
- Небольшие объемы данных
- Стандартные форматы
Работа с небольшими данными:
- До 100,000 строк комфортно
- Больше уже тормозит
- Для больших данных лучше другие инструменты
**Кстати, вчера проходил собеседование 😂
До сих пор вспоминаю и улыбаюсь. Компания (точнее вакансия, да и на самом собеседовании это подтвердилось) прям требует отличные знания Excel и Google Sheets для работы с большими данными 😄🤦🏽♂️ Простите, что смеюсь, но я правда считаю, что если компания растет, то стоит хотя бы немного погрузиться в тему перед поиском аналитика. Оказалось, что "большие данные" у них - это примерно 100 тысяч строк )))) Ну ладно, думаю я, в Google Sheets вполне комфортно можно работать до 200 тысяч строк (хотя вместимость вроде до 5 млн, но не суть), так что без БД они пока реально могут жить.
Но самое интересное - они тянут данные напрямую из API в Google Таблицы. В итоге я просто разложил всё по полочкам и фактически провёл им небольшой аудит. Со мной такое впервые, но, похоже, это совсем не редкая история. Всем добра 🙌🏽
Что уметь
Создавать базовые графики:
- Линейные для трендов
- Столбчатые для сравнения
- Круговые для долей (осторожно!)
- Точечные для корреляций
Пример из работы:
Данные продаж по месяцам → линейный график
Сравнение категорий → столбчатый график
Доли в общем объеме → круговой (но лучше столбчатый)
Настраивать оси и подписи:
- Правильные названия осей
- Понятные подписи
- Правильный масштаб
- Форматирование чисел
Форматировать графики:
- Цвета для категорий
- Легенды
- Заголовки
- Сетка для читаемости
Создавать сводные таблицы с графиками:
- Сводная таблица для агрегации
- График на основе сводной
- Автоматическое обновление
Ограничения
Медленно на больших данных:
- Больше 100,000 строк уже проблематично
- Формулы тормозят
- Графики долго строятся
Ограниченные возможности кастомизации:
- Стандартные типы графиков
- Сложно сделать что-то нестандартное
- Ограниченные цветовые схемы
Сложно автоматизировать:
- Нужно делать вручную
- Нет API для автоматизации
- Сложно интегрировать с другими системами
Уровень 2: Python (Matplotlib, Seaborn)
Python это следующий уровень. Для автоматизации и работы с большими данными.
Когда использовать
Автоматизация отчетов:
- Регулярные отчеты
- Генерация графиков из данных
- Интеграция в процессы
Работа с большими данными:
- Миллионы строк
- Сложные вычисления
- Обработка перед визуализацией
Кастомная визуализация:
- Нестандартные графики
- Сложные композиции
- Полный контроль над внешним видом
Что уметь
Строить базовые графики в Matplotlib:
import matplotlib.pyplot as plt
# Линейный график
plt.plot(df['date'], df['sales'])
plt.title('Продажи по дням')
plt.xlabel('Дата')
plt.ylabel('Продажи')
plt.show()
Использовать Seaborn для статистических графиков:
import seaborn as sns
# Box plot для распределений
sns.boxplot(data=df, x='category', y='price')
# Scatter plot с регрессией
sns.regplot(data=df, x='price', y='quantity')
# Heatmap для корреляций
sns.heatmap(df.corr(), annot=True)
Настраивать стили и цвета:
# Установка стиля
sns.set_style("whitegrid")
plt.style.use('seaborn-v0_8')
# Цветовые схемы
sns.set_palette("husl")
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1']
Сохранять графики в файлы:
plt.savefig('sales_chart.png', dpi=300, bbox_inches='tight')
plt.savefig('sales_chart.pdf') # векторный формат
Базовые типы графиков
Линейные (для трендов):
- Временные ряды
- Изменения во времени
- Тренды и паттерны
Столбчатые (для сравнения):
- Сравнение категорий
- Ранжирование
- Изменения по периодам
Гистограммы (для распределений):
- Распределение значений
- Частота событий
- Понимание данных
Scatter plot (для корреляций):
- Связь между переменными
- Кластеры данных
- Выбросы
Box plot (для статистики):
- Распределение и выбросы
- Сравнение групп
- Медиана и квартили
Уровень 3: Tableau / Power BI (продвинутый)
Это инструменты для дашбордов и презентаций. Профессиональный уровень.
Когда использовать
Интерактивные дашборды:
- Для бизнеса
- Регулярные отчеты
- Интерактивное исследование данных
Презентации для бизнеса:
- Красивые визуализации
- Интерактивность
- Профессиональный вид
Регулярные отчеты:
- Автоматическое обновление
- Публикация в интернете
- Доступ для команды
Что уметь
Создавать дашборды:
- Несколько графиков на одном экране
- Связанные фильтры
- Интерактивные элементы
- Навигация между страницами
Настраивать фильтры и параметры:
- Фильтры по датам
- Выбор категорий
- Параметры для расчетов
- Динамические фильтры
Создавать вычисляемые поля:
- Сложные расчеты
- Условная логика
- Агрегации
- Форматирование
Публиковать и делиться отчетами:
- Публикация в облаке
- Настройка доступа
- Обновление данных
- Уведомления
Tableau
Сильные стороны:
- Максимальная гибкость
- Красивые графики
- Мощные возможности
- Большое сообщество
Слабые стороны:
- Дорого (от $70/месяц)
- Сложнее для новичков
- Требует обучения
- Может быть избыточным
Когда выбирать:
- Нужна максимальная гибкость
- Сложные визуализации
- Презентации для клиентов
- Когда бюджет позволяет
Power BI
Сильные стороны:
- Интеграция с Microsoft
- Дешевле (бесплатно для личного)
- Проще для новичков
- Хорошая документация
Слабые стороны:
- Меньше гибкости чем Tableau
- Привязка к Microsoft
- Ограничения в бесплатной версии
- Меньше возможностей кастомизации
Когда выбирать:
- Работа в Microsoft экосистеме
- Ограниченный бюджет
- Нужны стандартные дашборды
- Командная работа
Принципы хорошей визуализации
Это то что важно независимо от инструмента.
1. Выбирайте правильный тип графика
Тренды → линейный график:
- Изменения во времени
- Прогнозы
- Сравнение трендов
Сравнение → столбчатый:
- Категории
- Периоды
- Ранжирование
Распределение → гистограмма:
- Частота значений
- Понимание данных
- Выбросы
Корреляция → scatter plot:
- Связь переменных
- Кластеры
- Паттерны
Доли → столбчатый (не круговой!):
- Круговые диаграммы плохо читаются
- Столбчатые лучше для сравнения
- Используйте круговые только для 2-3 сегментов
2. Избегайте лишнего
Убирайте ненужные элементы:
- Лишние линии сетки
- Декоративные элементы
- Ненужные цвета
- Перегруженные легенды
Минимум цветов:
- 2-3 основных цвета
- Контрастные оттенки
- Семантические цвета (красный = плохо, зеленый = хорошо)
Четкие подписи:
- Понятные названия осей
- Единицы измерения
- Легенды где нужно
3. Фокус на данных
Выделяйте важное:
- Акценты на ключевых точках
- Аннотации для контекста
- Выделение трендов
Используйте аннотации:
- Объяснение аномалий
- Важные события
- Контекст данных
Показывайте контекст:
- Сравнение с прошлым
- Бенчмарки
- Целевые значения
4. Доступность
Контрастные цвета:
- Достаточный контраст
- Проверка на цветовую слепоту
- Альтернативные способы различия (формы, текстуры)
Читаемые шрифты:
- Достаточный размер
- Простые шрифты
- Хорошая читаемость
Понятные легенды:
- Четкие названия
- Логичный порядок
- Достаточный размер
Типичные ошибки
Это то чего нужно избегать.
1. Круговые диаграммы с большим количеством сегментов
Проблема:
- Сложно сравнивать сегменты
- Маленькие сегменты нечитаемы
- Непонятно что важнее
Решение:
- Используйте столбчатую диаграмму
- Группируйте маленькие сегменты
- Используйте круговую только для 2-3 сегментов
2. Неправильный масштаб осей
Проблема:
- Может вводить в заблуждение
- Преувеличение различий
- Скрытие важных изменений
Решение:
- Всегда начинайте с нуля для столбчатых
- Используйте логарифмическую шкалу когда нужно
- Показывайте масштаб явно
3. Слишком много информации на одном графике
Проблема:
- Перегружает восприятие
- Сложно понять главное
- Отвлекает от важного
Решение:
- Разбивайте на несколько графиков
- Фокус на одной идее
- Используйте дашборды для множества метрик
4. Нечитаемые цвета
Проблема:
- Плохой контраст
- Цветовая слепота
- Непонятные цвета
Решение:
- Проверяйте на цветовую слепоту
- Используйте контрастные цвета
- Добавляйте текстуры или формы
Что учить в первую очередь
Для начинающих:
- Excel для базовых графиков - это база, с этого начинают все
- Python (Matplotlib/Seaborn) для автоматизации - нужно для работы с данными
- Один инструмент для дашбордов (Power BI/Superset/Data Lens/Tableau и др) - для презентаций
Для продвинутых:
- D3.js для кастомной визуализации
- Plotly для интерактивных графиков
- Storytelling с данными
- Продвинутые техники
Практические советы
- Начните с Excel. Это база для понимания визуализации. Освойте базовые графики, потом переходите к продвинутым инструментам.
- Изучите Python визуализацию. Это нужно для автоматизации. Matplotlib и Seaborn решают большинство задач.
- Выберите один инструмент для дашбордов. Не пытайтесь изучить все сразу. Power BI или Tableau - выберите один и освойте его.
- Практикуйтесь на реальных данных. Создавайте графики для своих проектов. Теория без практики бесполезна.
- Изучайте примеры хороших визуализаций. Tableau Public, Dribbble, Reddit r/dataisbeautiful - смотрите что делают другие, учитесь.
- Фокусируйтесь на ясности. Красота вторична. Главное чтобы график понятно передавал информацию.
- Тестируйте на аудитории. Показывайте графики коллегам, спрашивайте что понятно, что нет. Улучшайте на основе обратной связи.
Что делать дальше
Если вы только начинаете, начните с Excel и Python. Этого достаточно для большинства задач. НО, в 90% случаев в вакансиях аналитиков требуются инструменты BI, поэтому этот пункт я бы тоже указал прям в начале пути обучения.
Для изучения рекомендую:
- Практику в Excel на реальных данных - освойте базовые графики
- Курсы по Matplotlib/Seaborn - для автоматизации визуализации
- Бесплатную версию Power BI для дашбордов - для презентаций и отчетов
!!!Выбирайте инструмент и тип графика исходя из задачи и аудитории. Начинайте с простого, усложняйте постепенно.
Я не претендую на последнюю инстанцию, я пишу о своём пути и опыте. Спасибо что дочитали до конца. Подпишитесь👇👇👇, ставьте лайки 👍🏽👍🏽👍🏽 впереди много интересных статей про навыки, инструменты, обучение, лайфхаки и пути аналитика.