Найти в Дзене
Дата Сайентист

Специализации Data Science

Отвечая на вопрос, чем занимается Data Scientist, можно выделить три основные области знаний и навыков:

  1. Знания в сфере бизнеса и предметной области, в которых проводятся исследования, с привязкой к работе с данными.
  2. Знания в области разработки программного обеспечения, написания кода и алгоритмов программирования.
  3. Знания математики, статистики, теории вероятности, алгоритмов Machine Learning.

Работа большинства специалистов по данным состоит из совмещения в разных пропорциях трёх этих областей.

Навыки Data Scientist
Навыки Data Scientist

В идеале дата сайентист должен обладать высокими навыками и в понимании бизнеса, и в программировании, и в математике. На практике, когда работает команда специалистов, роли распределяются между разными специализациями, такими как Data Analyst, Data Engineer, Developer, Researcher и пр.

Чем отличаются эти специализации? Для иллюстрации удобно использовать принцип Дирихле.

Иоганн Петер Густав Лежён Дирихле (1805-1859) — немецкий математик, внёсший существенный вклад в математический анализ, теорию функций и теорию чисел. Член Берлинской, Петербургской, Парижской академий наук и Лондонского королевского общества (Википедия).

Принцип Дирихле гласит: «Пусть в клетках сидит не меньше, чем N+1 кроликов. Тогда найдётся клетка, в которой сидит не меньше двух кроликов».

Если скилы мы примем за клетки, а кроликами будут специализации Data Science, то распределение Дирихле будет выглядеть так, как на рисунке:

Распределение Дирихле для Data Science
Распределение Дирихле для Data Science

Таким образом, в центре распределения оказывается Data Scientist, который в более-менее равной степени обладает всеми тремя навыками.

Business Analyst — в большей степени владеет пониманием предметной области и бизнеса. На практике этот специалист вырастает из бизнес-аналитика, с добавлением навыков работы с данными.

Data Engineer — работает настыке бизнес-понимания и кодирования, разработки программного обеспечения.

Developer — специалист по разработке программ и написанию программных кодов.

ML Engineer — обладает профессиональными навыками в математической области и разработке ПО.

ML Researcher — практически чистый математик, разработчик алгоритмов и исследователь в области Machine Learning.

Data Analyst — покрывает смежные области математики и бизнес-понимания в сфере работы с данными.

Так на сегодня распределяются обязанности в команде Data Science. Это краткое объяснение в общих чертах не претендует на академичность и законченность. Специализация Data Scientist формируется в последние несколько лет и чёткого разделения труда ещё реально не существует.