Всем привет! Я — практикующий исследователь данных, и на этом канале делюсь тем, что реально работает в IT. Никакой сухой теории, только личный опыт, рабочие инструменты и грабли, на которые я уже наступил за вас. Рад, что вы здесь!
Я пишу про свой опыт, исходя из своей работы аналитиком данных и многочисленных собеседований. Сразу скажу, что ниже описан только мой путь — у каждого он свой, но есть общие черты.
Хард-скиллы
1. Python
Несомненно, начну с самого главного помощника аналитика данных — языка Python (хотя бы на начальном уровне). Альтернативой может быть R, но мне больше нравится Python.
Что я делаю с его помощью каждый день:
- Извлекаю данные из баз данных (ClickHouse, MS SQL Server) в удобные для анализа датафреймы.
- Провожу первичный анализ (буквально за минуту можно выявить дубликаты, аномалии, мин/макс/средние/медианные значения в каждом столбце и многое другое).
- Визуализирую данные (графики, диаграммы, корреляционные матрицы) для проверки гипотез и ответов на вопросы заказчиков.
- Работаю с API (ФНС, Ozon, Wildberries, корпоративные сайты).
- Выгружаю данные обратно в хранилище в рамках ETL-процессов.
Топ используемых библиотек:
- Pandas, NumPy — мощнейшие инструменты для работы с данными.
- Matplotlib, Seaborn — лучшие инструменты для визуализации данных (рекомендую посмотреть стили Matplotlib на GitHub — можно кастомизировать всё).
- SciPy, Scikit-learn — методы глубокой аналитики, статистики, прогнозирования.
- Requests — работа с API.
- SQLAlchemy, Clickhouse_connect — доступ к базам данных.
2. SQL
SQL должен стоять на первом месте, но я освоил его позже Python. Знаю аналитиков, которые работают только с SQL-клиентами (MS SQL Server Studio, DBeaver и т. д.), но у меня SQL чаще используется в коде Python.
Основные вещи, которые нужно знать:
- Синтаксис SQL (освоить за пару дней вполне реально).
- Структура запросов — важно понимать, что выполняется в каком порядке, когда лучше использовать JOIN вместо вложенных запросов и т. д.
- Виды и отличия JOIN-ов — даже если кажется, что всё понятно, лучше изучить ещё раз, потому что бывают неожиданные кейсы.
- Группировка и агрегация — ключевые вещи, без которых не обходится ни одна выгрузка.
- Оконные функции и CTE — сейчас использую их мало (заменяю Python), но раньше активно применял. Отличный тренажёр для практики — SQL на Степике.
- Типы данных в БД — полезно знать, хотя аналитики редко создают таблицы (чаще временные).
3. Excel
Excel никогда не устареет, пока существуют бухгалтеры, кадровики и менеджеры по продажам. Во всех компаниях, где я работал, огромное количество данных хранилось в Excel.
Что важно знать:
- Основные функции (их около 450).
- Сводные таблицы и диаграммы.
- Power Query (инструмент обработки данных).
- Power Pivot (анализ данных).
- Power View и Power Map (визуализация).
- Интеграция с другими приложениями Microsoft.
- VBA (автоматизация).
Лично мне всегда хватало знаний базовых функций, сводных таблиц и построения графиков.
4. BI-системы (Power BI, Fine BI, Data Lens и др.)
BI-инструменты позволяют строить дашборды (панели с графиками, метриками, показателями).
Важно:
- Дашборды должны быть понятными и последовательными для заказчика.
- Для аналитического отдела можно делать сложные, узкоспециализированные дашборды.
- Для топ-менеджмента — визуально простые, но информативные.
Создание дашбордов — это творческая задача. Мне помогает книга «Говори на языке диаграмм», так как у меня нет особого чувства вкуса в визуализации данных.
Софт-скиллы
1. Критическое мышление
Аналитик должен уметь задавать правильные вопросы и критически относиться к данным. Если на этапе обсуждения ТЗ что-то не уточнить, позже это может обернуться лавиной проблем.
2. Общение с заказчиком
В моём случае это руководители подразделений и отделов компании. Важно:
- Уточнять детали.
- Вносить правки в задачу.
- Проводить обсуждения и находить недостающие данные.
3. Выступления
Презентация результатов, инсайтов, гипотез и выводов. Нужно уметь чётко и уверенно доносить информацию и отвечать на вопросы по своей работе.
4. Генерация идей
Поиск аномалий, выдвижение гипотез, поиск закономерностей — это одна из главных задач аналитика.
5. Внимательность, усидчивость, логика, системное мышление
Эти качества сильно помогают в работе. Если ты не усидчивый и невнимательный — работать аналитиком будет сложно.
Выводы
Работа аналитика данных сочетает в себе три ключевых фактора:
- Хард-скиллы (Python, SQL, Excel, BI-системы).
- Софт-скиллы (критическое мышление, коммуникация, презентации).
- Гибкость мышления (поиск решений, анализ данных, генерация идей).
Я перечислил минимальные навыки, с которыми я вошел и благополучно работаю в этой сфере. А вопрос про разнообразность инструментов - это второе, первое - это знание базовых инструментов и наличие гибкого ума.
Путь аналитика требует непрерывного развития. Компании часто путают Аналитика данных с Инженером данных, с ML разработчиком или Дата Саентистом, в целом со временем ты становишься каждым из них.
Этот путь определенно интересен и очень перспективен.
Спасибо что дочитали до конца. Подпишитесь👇👇👇, впереди много интересных статей про навыки, инструменты, обучение, лайфхаки и пути аналитика.