Спрос на аналитиков данных уже существенно превышает предложение и будет расти в ближайшие десять лет — самое время задуматься о смене профессии. Мы попросили математика и дата-сайентиста Василия Васильева рассказать о навыках и инструментах, необходимых для работы, а также поделиться обучающими материалами (большинство из них бесплатные) и источниками идей для первых проектов.
Кто такой аналитик данных
Сейчас все больше бизнесов опирается на Big Data. В работе с большими объемами данных главный инструмент — математические модели. Они помогают найти связи между разрозненными наборами информации и перевести ее на язык, понятный человеку. Сбором, обработкой данных и построением математических моделей занимается Data Analyst. Результат его работы — наглядные выводы (схема, диаграмма или инфографика), которые можно использовать для принятия бизнес-решений.
Аналитик данных помогает ответить на следующие вопросы:
- На каких клиентов должен ориентироваться бизнес в своей следующей рекламной кампании
- Какая возрастная группа наиболее уязвима для того или иного заболевания
- Какие модели поведения связаны с финансовым мошенничеством.
Спрос на специалистов постоянно растет, а число вакансий существенно превышает предложение. По прогнозам Всемирного экономического форума, с 2020 до 2030 года количество вакансий для аналитика данных вырастет на 25%. Это существенно быстрее, чем общий темп роста занятости (7,7% за тот же период).
С чего начинать обучение
Математика на начальном уровне: знать производные и теорию вероятностей, основы дискретной математики и статистики, уметь применять метод градиентного спуска.
Язык программирования: обычно аналитики работают со связкой Python и SQL. В вакансиях чаще упоминаются Python-библиотеки Pandas и NumPy.
Инструменты для визуализации данных (знать все необязательно, часто в вакансиях указывают одну из них на выбор):
- Matplotlib — Python-библиотека для визуализации данных двумерной графикой.
- Seaborn — еще одна Python-библиотека для создания статистических графиков.
- Power BI — комплекс программных служб от Microsoft, в числе которых инструменты для визуализации данных.
- Metabase — сервис, который позволяет хранить данные, создавать DataLake, строить гибкие запросы и визуализировать отчеты.
Существуют no-code решения с готовыми математическими моделями, в которые достаточно просто загрузить данные. Однако пользоваться ими стоит только в случае, если вы понимаете, что происходит внутри математической модели. Иначе в результате анализа может быть много ошибок.
Какими источниками пользоваться
Вот несколько бесплатных курсов, которые помогут прокачать математику:
- Введение в математический анализ, Александр Храбров, ВШЭ
- Введение в математическую логику, Хекслет
- Теория вероятностей, Александр Храбров, ВШЭ
- Основы языка Python, Хекслет
- Открытый курс по машинному обучению, сообщество Open Data Science
Отдельные темы, связанные с анализом данных, обсуждаются на форуме cyberforum в разделах, посвященных базам данных, Python и SQL. Не смотрите на устаревший дизайн, пользователи форума достаточно активно отвечают на вопросы и помогают решать проблемы.
Книги:
- Data Science from Scratch Джоэла Граса (в русском переводе «Data Science. Наука о данных с нуля»)
- Data Science for Business Фостера Провоста.
Обе предназначены для новичков, которые уже знакомы с математикой, и посвящены базовым принципам анализа данных.
Как проверить знания на практике
Kaggle — крупнейшее в мире англоязычное сообщество дата-сайентистов и платформа для тренировки навыков по анализу данных. Есть раздел Learns с классическими задачами на анализ данных и Competition с более сложными кейсами, которые можно решать одному или в команде.
Еще можно решать задачи из вступительных экзаменов прошлых лет в Высшую школу экономики (ВШЭ), Российскую экономическую школу (РЭШ) или Школу анализа данных (ШАД). Они доступны в открытом доступе, а результаты можно обсудить, например, с пользователями cyberforum.
На какую зарплату рассчитывать
По данным рекрутингового сервиса HH, в апреле 2022 года в России открыто 10 536 вакансий Data Analyst. Большинство из них — в Москве (5 536), далее следуют Санкт-Петербург (1 356), Свердловская область (314) и Татарстан (307).
Средняя зарплата аналитика данных, по подсчетам сервиса Zarplan, в апреле 2022 года составила 227 тыс. рублей. Минимальная зарплата составляет 60 тыс., максимальная — 500 тыс. рублей для руководителя команды анализа данных.
Как перейти к практике
Вот несколько советов, с чего начать переход к реальным проектам в портфолио:
- Автоматизация рутинных задач
Лучшее, с чего можно начать — найти в своей жизни то, что можно автоматизировать. Например, посчитать, сколько страниц книги вы читаете в день и как количество прочитанных страниц зависит от времени, когда вы читаете.
- Задачи, которые встречаются в реальных проектах
Часто их можно найти в тестовых заданиях компаний, которые ищут аналитиков данных. В отдельном репозитории Хекслета на GitHub есть около сотни реальных тестовых заданий российских и зарубежных компаний.
- Принять участие в Open Source проекте
Open Source — настоящие проекты или реальный продакшен. Участие в них дает новичку опыт работы в команде, учит ответственности, планированию, тайм-менеджменту и помогает применить знания на практике.
***
Не забудьте сохранить эту статью куда-нибудь в закладки, даже если только задумываетесь о смене профессии. Пусть полезные ссылки будут под рукой.