Отвечая на вопрос, чем занимается Data Scientist, можно выделить три основные области знаний и навыков:
- Знания в сфере бизнеса и предметной области, в которых проводятся исследования, с привязкой к работе с данными.
- Знания в области разработки программного обеспечения, написания кода и алгоритмов программирования.
- Знания математики, статистики, теории вероятности, алгоритмов Machine Learning.
Работа большинства специалистов по данным состоит из совмещения в разных пропорциях трёх этих областей.
В идеале дата сайентист должен обладать высокими навыками и в понимании бизнеса, и в программировании, и в математике. На практике, когда работает команда специалистов, роли распределяются между разными специализациями, такими как Data Analyst, Data Engineer, Developer, Researcher и пр.
Чем отличаются эти специализации? Для иллюстрации удобно использовать принцип Дирихле.
Иоганн Петер Густав Лежён Дирихле (1805-1859) — немецкий математик, внёсший существенный вклад в математический анализ, теорию функций и теорию чисел. Член Берлинской, Петербургской, Парижской академий наук и Лондонского королевского общества (Википедия).
Принцип Дирихле гласит: «Пусть в клетках сидит не меньше, чем N+1 кроликов. Тогда найдётся клетка, в которой сидит не меньше двух кроликов».
Если скилы мы примем за клетки, а кроликами будут специализации Data Science, то распределение Дирихле будет выглядеть так, как на рисунке:
Таким образом, в центре распределения оказывается Data Scientist, который в более-менее равной степени обладает всеми тремя навыками.
Business Analyst — в большей степени владеет пониманием предметной области и бизнеса. На практике этот специалист вырастает из бизнес-аналитика, с добавлением навыков работы с данными.
Data Engineer — работает настыке бизнес-понимания и кодирования, разработки программного обеспечения.
Developer — специалист по разработке программ и написанию программных кодов.
ML Engineer — обладает профессиональными навыками в математической области и разработке ПО.
ML Researcher — практически чистый математик, разработчик алгоритмов и исследователь в области Machine Learning.
Data Analyst — покрывает смежные области математики и бизнес-понимания в сфере работы с данными.
Так на сегодня распределяются обязанности в команде Data Science. Это краткое объяснение в общих чертах не претендует на академичность и законченность. Специализация Data Scientist формируется в последние несколько лет и чёткого разделения труда ещё реально не существует.