Найти тему
Nuances of programming

Изучение нового языка для работы с данными

В постоянно меняющейся экосистеме инструментов для анализа данных вам придется часто изучать все новые и новые языки, чтобы идти в ногу со временем и эффективно работать в команде. В течении нескольких лет я писал код на языке R, но давно уже хотел перейти на Python, чтобы в полной мере использовать библиотеки глубокого обучения и инструменты, такие как PySpark. Кроме того, я начал работать в команде Data Science в Zynga, где Python является основным языком. Прошло всего несколько недель, но я уже начинаю осваивать анализ данных и прогнозное моделирование на Python. Это не первый случай, когда я пытался быстро освоиться с новым языком, но случай с Python оказался наиболее успешным. Я хочу дать вам несколько рекомендаций по работе с новым языком программирования в качестве сотрудника по анализу данных.

Сосредоточьтесь на результатах, а не на семантике языка

Понимание семантики языка, с которым вы собираетесь работать, безусловно важно и без этого никуда, однако я считаю, что для того, чтобы быстро освоить новый язык, достаточно понимания его основ. До знакомства с Python я прочитал вторую главу «Data Science from Scratch», этакий вводный курс в язык Python. Далее я составил список задач, которые мне необходимо было выполнить, используя Python, который включал следующее:

  • Чтение и запись данных в CSV — файлы
  • Выполнение базовых операций с таблицами данных, таких как отображение типов данных
  • Визуализация данных посредством гистограмм и линейных диаграмм
  • Подключение к базе данных и последующий вывод данных в таблицы (dataframes)
  • Создание модели логистической регрессии
  • Оценка показателей моделей, таких как lift и accuracy

Вместо того, чтобы полностью сосредоточиться на изучении семантики языка, например на понимании разницы между списками и кортежами в Python, я начал практиковаться в выполнении моих повседневных задач по анализу данных. Со всеми этими задачами я мог справиться посредством языка R, но теперь мне нужно было научиться делать тоже самое с помощью Python. Например, я узнал, что summary() в R аналогичен describe() в датафреймах Pandas.

Читайте дальше

Читайте нас в телеграмме и vk

Перевод статьи Ben WeberLearning A New Data Science Language