Кто-то, возможно, уже давно в аналитике и постиг все прелести профессии аналитика данных, дата-саентиста, продуктового аналитика, веб-аналитика или чего-бы-то-ни-было-аналитика. Кто-то делает первые шаги в эту сторону. Кто-то только задумывается начать. Для вторых и третьих в первую очередь (ух, сколько цифр в предложении) приведу список скиллов, знание которых если не обязательно, то очень желательно для начала карьеры в анализе данных.
Понимая, что направлений в аналитике много, и на начальных этапах сложно определиться с конкретным, список будет максимально широкий и общий, а оттого, возможно, банальный. Но каждый из тех, кто сейчас в уме считает критерий согласия хи-квадрат при анализе результатов опроса или не глядя выбирает XGBoost при решении ML-задачи классификации или б-г его знает, что еще делает, недоступное простым смертным, должен понимать, что N лет назад он не знал об этом ничего или, возможно, чуть-чуть меньше.
1. SQL. Железобетонное первое место занимает именно "Эс-ку-эль"/"Эс-кью-эль"/"Си-ку-ел" - неважно, называйте как удобно. Structured Query Language с ихнего переводится на великий могучий очевидно как "язык структурированных запросов", а на практике это основной язык, на котором аналитик данных разговаривает с базами данных. Почему я поставил этот навык на первое место? Я не знаю ни одного аналитика, кому бы он не пригодился: у кого-то SQL занимает 5% рабочего времени, у кого-то (их еще иногда называют SQL-аналитиками) - 70%. Причем знающие люди скажут, что даже те Системы Управления Базами Данных, которые гордо именуются классом NoSQL на самом деле управляются языком, максимально приближенным к привычному SQL. И с чем бы вы ни работали - Google BigQuery, Яндекс ClickHouse или Hadoop (+Hive) - с SQL вы все равно столкнетесь и даже будете этому рады ) Есть много так называемых диалектов SQL (postgreSQL, MySQL, SQLite и несколько других), которые немного отличаются по синтаксису, совсем капельку - по логике и чуть-чуть по функционалу. По личному опыту, имеет смысл учить postgreSQL, но это очень субъективно, а перейти с одного диалекта на другой за неделю-другую, в общем-то, не составит труда.
Что почитать? С книжкой в библиотеке сидеть не стоит. В сети есть куча сервисов и курсов, на которых бесплатно и не очень можно обучиться SQL в виде интерактивных уроков. Например, очень красиво (и бесплатно) сделано тут. Поверьте, это не реклама, на момент написания статьи на канале 1 подписчик - это я ))
2. Excel. По моему субъективному мнению, это второе место. Кому-то Excel может показаться простым и банальным выбором, кто-то вполне обходится в работе и без него, но Эксель не зря называют первым BI-инструментом. Для многих его возможности скрыты за клеймом "инструмента для таблиц", что, безусловно, правда, но только отчасти. В Экселе можно реализовывать, например, подбор коэффициентов для моделей регрессии через Solver, отобразить продажи на карте мира или сделать простенькую игру. Аналитики часто используют Excel в качестве инструмента для представления результатов исследований. Также предлагаю желающим ознакомиться с пакетом "Анализ данных". В данном случае для начала работы аналитиком, достаточно сохранить в закладках что-то по типу такого сайта.
3. Математика и статистика. В большей или меньшей степени знание математики необходимо. Во многих задач достаточно будет не ошибиться, отвечая на вопрос "На сколько процентов 57 больше 19?" или "Чему равна медиана ряда натуральных чисел {1,2,3,4,5}?" Но есть задачи, где без твердого фундамента придется трудно. Особенно это относится к области Data Science и машинному обучению (не подбором гиперпараметров единым), задачам на расчет стат значимости результатов АБ-тестов и наверняка еще очень многому, что просто под вечер не лезет мне в голову.
4. Python/R. Начинающим аналитикам стоит взять на заметку, что освоение одного из языков программирования для работы с данными - важнейшая часть пути от Junior к Middle и Senoir-позициям. Выбирать стоит, как мне кажется, питон, т.к. он распространен намного шире языка R в среде аналитиков. Процент задач, для которых необходимо знание питона, разнится как от специализации аналитика, так и от конкретной компании, но базовые навыки обработки данных знать нужно. Чтобы освоить Python могу, как ни странно, порекомендовать этот курс от Яндекса и ВШЭ по ML, широко известный в узких кругах: первая часть в нем как раз посвящена обработке данных с помощью numpy/pandas - для старта вполне достаточно.
Продолжение статьи можно найти здесь
Всем спасибо за прочтение ) подписывайтесь на телеграм