Найти в Дзене

Что нужно и не нужно знать Аналитику данных

Всем привет! Я — практикующий исследователь данных, и на этом канале делюсь тем, что реально работает в IT. Никакой сухой теории, только личный опыт, рабочие инструменты и грабли, на которые я уже наступил за вас. Рад, что вы здесь! Я пишу про свой опыт, исходя из своей работы аналитиком данных и многочисленных собеседований. Сразу скажу, что ниже описан только мой путь — у каждого он свой, но есть общие черты. Несомненно, начну с самого главного помощника аналитика данных — языка Python (хотя бы на начальном уровне). Альтернативой может быть R, но мне больше нравится Python. Что я делаю с его помощью каждый день: Топ используемых библиотек: SQL должен стоять на первом месте, но я освоил его позже Python. Знаю аналитиков, которые работают только с SQL-клиентами (MS SQL Server Studio, DBeaver и т. д.), но у меня SQL чаще используется в коде Python. Основные вещи, которые нужно знать: Excel никогда не устареет, пока существуют бухгалтеры, кадровики и менеджеры по продажам. Во всех компан
Оглавление

Всем привет! Я — практикующий исследователь данных, и на этом канале делюсь тем, что реально работает в IT. Никакой сухой теории, только личный опыт, рабочие инструменты и грабли, на которые я уже наступил за вас. Рад, что вы здесь!

Я пишу про свой опыт, исходя из своей работы аналитиком данных и многочисленных собеседований. Сразу скажу, что ниже описан только мой путь — у каждого он свой, но есть общие черты.

Картинка сгенерирована в Шедевруме
Картинка сгенерирована в Шедевруме

Хард-скиллы

1. Python

Несомненно, начну с самого главного помощника аналитика данных — языка Python (хотя бы на начальном уровне). Альтернативой может быть R, но мне больше нравится Python.

Что я делаю с его помощью каждый день:

  • Извлекаю данные из баз данных (ClickHouse, MS SQL Server) в удобные для анализа датафреймы.
  • Провожу первичный анализ (буквально за минуту можно выявить дубликаты, аномалии, мин/макс/средние/медианные значения в каждом столбце и многое другое).
  • Визуализирую данные (графики, диаграммы, корреляционные матрицы) для проверки гипотез и ответов на вопросы заказчиков.
  • Работаю с API (ФНС, Ozon, Wildberries, корпоративные сайты).
  • Выгружаю данные обратно в хранилище в рамках ETL-процессов.

Топ используемых библиотек:

  • Pandas, NumPy — мощнейшие инструменты для работы с данными.
  • Matplotlib, Seaborn — лучшие инструменты для визуализации данных (рекомендую посмотреть стили Matplotlib на GitHub — можно кастомизировать всё).
  • SciPy, Scikit-learn — методы глубокой аналитики, статистики, прогнозирования.
  • Requests — работа с API.
  • SQLAlchemy, Clickhouse_connect — доступ к базам данных.

2. SQL

SQL должен стоять на первом месте, но я освоил его позже Python. Знаю аналитиков, которые работают только с SQL-клиентами (MS SQL Server Studio, DBeaver и т. д.), но у меня SQL чаще используется в коде Python.

Основные вещи, которые нужно знать:

  • Синтаксис SQL (освоить за пару дней вполне реально).
  • Структура запросов — важно понимать, что выполняется в каком порядке, когда лучше использовать JOIN вместо вложенных запросов и т. д.
  • Виды и отличия JOIN-ов — даже если кажется, что всё понятно, лучше изучить ещё раз, потому что бывают неожиданные кейсы.
  • Группировка и агрегация — ключевые вещи, без которых не обходится ни одна выгрузка.
  • Оконные функции и CTE — сейчас использую их мало (заменяю Python), но раньше активно применял. Отличный тренажёр для практики — SQL на Степике.
  • Типы данных в БД — полезно знать, хотя аналитики редко создают таблицы (чаще временные).

3. Excel

Excel никогда не устареет, пока существуют бухгалтеры, кадровики и менеджеры по продажам. Во всех компаниях, где я работал, огромное количество данных хранилось в Excel.

Что важно знать:

  • Основные функции (их около 450).
  • Сводные таблицы и диаграммы.
  • Power Query (инструмент обработки данных).
  • Power Pivot (анализ данных).
  • Power View и Power Map (визуализация).
  • Интеграция с другими приложениями Microsoft.
  • VBA (автоматизация).

Лично мне всегда хватало знаний базовых функций, сводных таблиц и построения графиков.

4. BI-системы (Power BI, Fine BI, Data Lens и др.)

BI-инструменты позволяют строить дашборды (панели с графиками, метриками, показателями).

Важно:

  • Дашборды должны быть понятными и последовательными для заказчика.
  • Для аналитического отдела можно делать сложные, узкоспециализированные дашборды.
  • Для топ-менеджмента — визуально простые, но информативные.

Создание дашбордов — это творческая задача. Мне помогает книга «Говори на языке диаграмм», так как у меня нет особого чувства вкуса в визуализации данных.

Софт-скиллы

1. Критическое мышление

Аналитик должен уметь задавать правильные вопросы и критически относиться к данным. Если на этапе обсуждения ТЗ что-то не уточнить, позже это может обернуться лавиной проблем.

2. Общение с заказчиком

В моём случае это руководители подразделений и отделов компании. Важно:

  • Уточнять детали.
  • Вносить правки в задачу.
  • Проводить обсуждения и находить недостающие данные.

3. Выступления

Презентация результатов, инсайтов, гипотез и выводов. Нужно уметь чётко и уверенно доносить информацию и отвечать на вопросы по своей работе.

4. Генерация идей

Поиск аномалий, выдвижение гипотез, поиск закономерностей — это одна из главных задач аналитика.

5. Внимательность, усидчивость, логика, системное мышление

Эти качества сильно помогают в работе. Если ты не усидчивый и невнимательный — работать аналитиком будет сложно.

Выводы

Работа аналитика данных сочетает в себе три ключевых фактора:

  1. Хард-скиллы (Python, SQL, Excel, BI-системы).
  2. Софт-скиллы (критическое мышление, коммуникация, презентации).
  3. Гибкость мышления (поиск решений, анализ данных, генерация идей).

Я перечислил минимальные навыки, с которыми я вошел и благополучно работаю в этой сфере. А вопрос про разнообразность инструментов - это второе, первое - это знание базовых инструментов и наличие гибкого ума.

Путь аналитика требует непрерывного развития. Компании часто путают Аналитика данных с Инженером данных, с ML разработчиком или Дата Саентистом, в целом со временем ты становишься каждым из них.

Этот путь определенно интересен и очень перспективен.

Спасибо что дочитали до конца. Подпишитесь👇👇👇, впереди много интересных статей про навыки, инструменты, обучение, лайфхаки и пути аналитика.