7 обязательных навыков дата-сайентиста

7 обязательных навыков дата-сайентиста
7 обязательных навыков дата-сайентиста

Сейчас в мире сложилась такая ситуация, что практически каждый хочет изучить науку о данных (aka дата-сайенс или data science в оригинале). И для этого много причин – это достаточно интересная работа, с неплохой зарплатой и возможностью работать в комфортных условиях, например, даже из кровати в своем доме. Так что давай рассмотрим 7 обязательных навыков дата-сайентиста.

Подпишись на группу Вконтакте  и Телеграм -канал. Там еще больше полезного контента для программистов.
А на YouTube -канале ты найдешь обучающие видео по программированию. Подписывайся !

Маст-хэв скиллы для дата-сайентиста

Сегодня мы рассмотрим семь критически важных навыков которыми должен обладать каждый дата-сайентист. Вот полный список:

  • Креативность и критическое мышление
  • Математика и статистика
  • Программирование
  • Анализ данных и визуализация
  • Машинное и глубокое обучение
  • Базы данных
  • Образование

Креативность и критическое мышление

В повседневной работе задачи для дата-сайетитста очень часто слабо определены, особенно на старте проекта. Для того, чтобы приносить пользу специалист также должен обладать достаточно обширными знаниями в конкретной предметной области.

Например, как ты будешь разрабатывать модель для анализа кредитного риска, если ничего об этом не знаешь? И даже если ты будешь делать всё правильно и следовать лучшим практикам в дата-сайенс, вряд ли ты сможешь добиться желаемого результата. Как следствие, твоя модель будет работать не оптимально, и ты не будешь знать, что с этим делать.

Вот в таком случае тебе и пригодится креативность и критическое мышление. Дата сайентист должен уметь обрабатывать огромное количество информации в короткий промежуток времени. Имея команду креативных людей, появляется возможность создавать решения о которых никто раньше и не мог и подумать.

Критическое мышление же поможет тебе копать глубже и всегда задавать правильные вопросы, чтобы выявлять возможные предрассудки и заблуждения.

Математика и статистика

То, как много математики тебе будет попадаться в ежедневной работе зависит от конкретной позиции. Чаще всего в дата-сайенс ты будешь сталкиваться в этими четырьмя разделами математики:

Наиболее важные математические навыки в дата сайенс
Наиболее важные математические навыки в дата сайенс

Это определенно не те темы, которые можно выучить за неделю, особенно учитывая, что весь этот список входит в университетскую программу технических специальностей.

Но это совсем не означает, что теперь тебе придется провести весь следующий год занимаясь глубоким изучением этих предметов, а вот основы знать необходимо. Для джуниор уровня будет достаточно понимания, как применять эти темы на практике в дата сайенс и интуиции. А вот если ты претендуешь на высокоуровневую позицию исследователя данных, то эти предметы должны быть твоей второй натурой.

У тебя в любом случае будет как минимум несколько лет для роста от джуна до синьора, поэтому тебе должно хватить времени, чтобы изучить эти темы более глубоко. И одна из самых приятных особенностей – ты можешь обучиться всему этому самостоятельно и бесплатно, но на английском. Вот ссылки на хорошие открытые онлайн курсы:

Программирование

Ни математика, ни статистика, ни критическое мышление не помогут тебе, если ты не знаешь, как выражать свои мысли с помощью языка программирования. Давай посмотрим, какие языки чаще всего применяются в анализе данных:

Наиболее часто используемые языки программирования в дата сайенс. Данные взяты из результатов опроса The 2019 Kaggle ML and Data Science Survey
Наиболее часто используемые языки программирования в дата сайенс. Данные взяты из результатов опроса The 2019 Kaggle ML and Data Science Survey

Если в двух словах, то Python и R – лидеры индустрии. При этом SQL используется чаще, чем R, но это связано с другой причиной, которую мы обсудим чуть позже в этой статье.

Если ты только начинаешь изучать программирование, то у меня для тебя отличные новости – и Python, и R достаточно легки в изучении. В то же время, если ты до этого изучал какой-либо императивный язык (например, C# или Java), то переучиться с них тоже не составит большого труда.

В конце концов, Python разрабатывался для обучения основам программирования детей, так что это не должно составить большой сложности для такого хорошо образованного человека как ты, не так ли?

Анализ данных и визуализация

Для того чтобы эффективным дата-сайентистом, необходимо иметь отличные навыки в анализе данных и визуализации. Основная цель твоей работы – рассказать историю, и никто не захочет читать её, если она неполная и плохо представленная.

К счастью, существует огромное количество готовых для использования пакетов для анализа и визуализации данных как для Python, так и для R. Наиболее популярный пакет для анализа для Python – pandas , а для R – dplyr .

Когда дело доходит до визуализации, то большинство сходится во мнении, что R здесь выигрывает — визуализация выглядит лучше, особенно если используются настройки по умолчанию. Наиболее популярная для этого библиотека – ggplot2 . Здесь можно найти несколько обучающих уроков по работе с ней.

Таким образом, хорошее знание анализа и визуализации данных – жизненно необходимо. И для этого недостаточно просто уметь писать код, необходимо уметь задавать правильные вопросы. Как раз здесь и пригодятся критическое мышление и креативность.

Машинное обучение

Ну а теперь самое время для наиболее хайповой темы. Машинное обучение получило невероятно широкое распространение в последние годы. При этом сама концепция появилась достаточно давно, примерно в 1950 году, но популярность приобрела недавно, из-за увеличения вычислительной мощности компьютеров, которые стали доступны повсеместно.

Как результат, большинство компаний включили машинное обучение в свои ключевые сервисы. Оно применяется от элементарной классификации цветов до автономных систем управления автомобилями.

Применение машинного обучения безгранично, поэтому невозможно создать универсальный способ обучения, который подходил бы и для бизнеса, и для разработчиков. Но вот начать учебу с базовых основ точно никому не повредит. Здесь можно найти несколько статей, которые рассказывают о машинном обучении на языке программирования R.

К сожалению, изучить машинное обучение по нескольким статьям или даже книгам невозможно. Это огромная и быстро развивающаяся область знаний, которая требует много сил, времени и энергии на изучение.

Базы данных

Скорее всего ты не будешь работать с CSV или Excel файлами постоянно. Вместо этого данные будут храниться в базах данных. Существует множество различных вендоров баз данных, например Microsoft, IBM или Oracle, но все они имеют кое-что общее – это SQL.

Этот язык используется для хранения, получения и манипуляции данными в базах данных. Синтаксис SQL может немного отличаться в зависимости от конкретного вендора, но эти различия достаточно небольшие, этому переучится с одного на другой у тебя не должно занять много времени, если вдруг ты решишь это сделать.

Ты можешь применять SQL как для простого получения данных, так и для сложных вычислений. Например, если ты предпочитаешь использовать для реализации логики языки программирования, то можешь с помощью SQL просто выгрузить данные в память, а все вычисления выполнять с помощью Python или R. Или же ты можешь реализовывать большинство операций непосредственно с помощью SQL, если тебе это больше нравится.

Второй подход более применим, если тебе важна скорость работы, но кроме того, в целом это считается плохим решением загружать лишние данные, которые тебе не нужны.

Изучение основ баз данных не должно отнять у тебя слишком много времени. С точки зрения Python и R, существуют несколько готовых для использования библиотек, которые позволяют подключаться к любой базе данных, будь то собственный сервер или облако. Обычно, эти библиотеки хорошо задокументированы, поэтому и подключение не должно вызывать сложностей.

Таким образом, изучив основы SQL ты научишься делать тяжелые вычисления в базе данных, и получать в свой Python или R код только нужные подготовленные данные.

Образование

Меньше 30% дата-сайентистов имеют диплом бакалавра и ниже, при этом около 20% имеют докторскую степень, основываясь на исследовании 2018 года. Короче говоря, наиболее распространенным и ожидаемым уровнем является диплом магистра.

На этой схеме увидеть общее соотношение уровня образования и должностей:

Распределение специалистов по профессиям и уровням образования
Распределение специалистов по профессиям и уровням образования

Это вовсе не означает, что ты совсем не сможешь получить работу дата-сайентиста без высшего образования, но это возможно только при двух условиях:

  • HR не выкинет твое резюме сразу при первичном ознакомлении с ним, просто потому что у тебя недостаточный уровень образования и это не соответствует требованиям (поэтому имеет смысл обращаться в небольшие компании, хотя бы потому что у них иногда просто нет должного HR отдела)
  • Если ты покажешь уровень знаний, которые окажется лучше всех остальных, кто также претендует на эту вакансию

Да, образование – это полезная вещь для дата-сайентиста, однако, какое образование? Давай посмотрим на эту схему:

Распределение специалистов по профессиям и направлениям обучения
Распределение специалистов по профессиям и направлениям обучения

Как можешь видеть, большинство дата-сайенститов имеют опыт и образование в области компьютерных наук, бизнеса или математики и статистики. Ожидается, что количество аналитиков данных с официальным образованием в области дата-сайенс будет расти по мере того, как все больше университетов будет предлагать эту специальность.

Итоги по теме: 7 обязательных навыков дата-сайентиста

Ну вот, теперь ты знаешь все 7 необходимых навыков, которые будут жизненно важны, если ты хочешь стать data scientist. Основная идея заключается в том, что знания даже основ всех семи навыков будет достаточно, чтобы получить работу в области data science на начальном уровне. И только годы опыта работы с большими данными, и самообразование помогут тебе подняться по карьерной лестнице, но у тебя будет время на то, чтобы углубиться в изучении конкретных областей.

Оригинал: 7 Must-Have Skills to Get a Job as a Data Scientist

Советую прочитать предыдущую статью — Поговорим о странностях питона .
А также подписывайтесь на 
группу ВКонтакте , TelegramИнстаграм и YouTube-канал . Там еще больше полезного и интересного для программистов.