В постоянно меняющейся экосистеме инструментов для анализа данных вам придется часто изучать все новые и новые языки, чтобы идти в ногу со временем и эффективно работать в команде. В течении нескольких лет я писал код на языке R, но давно уже хотел перейти на Python, чтобы в полной мере использовать библиотеки глубокого обучения и инструменты, такие как PySpark. Кроме того, я начал работать в команде Data Science в Zynga, где Python является основным языком. Прошло всего несколько недель, но я уже начинаю осваивать анализ данных и прогнозное моделирование на Python. Это не первый случай, когда я пытался быстро освоиться с новым языком, но случай с Python оказался наиболее успешным. Я хочу дать вам несколько рекомендаций по работе с новым языком программирования в качестве сотрудника по анализу данных.
Сосредоточьтесь на результатах, а не на семантике языка
Понимание семантики языка, с которым вы собираетесь работать, безусловно важно и без этого никуда, однако я считаю, что для того, чтобы быстро освоить новый язык, достаточно понимания его основ. До знакомства с Python я прочитал вторую главу «Data Science from Scratch», этакий вводный курс в язык Python. Далее я составил список задач, которые мне необходимо было выполнить, используя Python, который включал следующее:
- Чтение и запись данных в CSV — файлы
- Выполнение базовых операций с таблицами данных, таких как отображение типов данных
- Визуализация данных посредством гистограмм и линейных диаграмм
- Подключение к базе данных и последующий вывод данных в таблицы (dataframes)
- Создание модели логистической регрессии
- Оценка показателей моделей, таких как lift и accuracy
Вместо того, чтобы полностью сосредоточиться на изучении семантики языка, например на понимании разницы между списками и кортежами в Python, я начал практиковаться в выполнении моих повседневных задач по анализу данных. Со всеми этими задачами я мог справиться посредством языка R, но теперь мне нужно было научиться делать тоже самое с помощью Python. Например, я узнал, что summary() в R аналогичен describe() в датафреймах Pandas.
Читайте нас в телеграмме и vk
Перевод статьи Ben Weber: Learning A New Data Science Language