Кому нужен Data Engineer, когда все остальные хотят нанять Data Scientist'а ?
Позвольте мне начать с обыденной ситуации: новый увлеченный ds-специалист присоединяется к компании. Он умеет анализировать, строить модели и визуализировать результаты. Но тут до него доходит, что готовых данных нет и их надо из разнообразных хранилищ добывать, создавать пайплайн(что это такое почитайте здесь), в общем, сплошная головная боль. Желание работать, радоваться и жить полноценной жизнью постепенно пропадает, потому что данные бывают разные и структурировать их становится той еще задачей. И вот тут на сцену выходит data engineer.
“Data engineer отвечает за создание, обработку и обслуживание ETL-пайплайнов, которые позволяют DS-специалистам уже без лишних усилий работать с чистыми данными”
Но не все компании понимают, что им требуются обе роли, и большую часть времени data scientist'ы в конечном итоге выполняют задачи по обработке данных, что мягко сказать не соответствует их профилю.
Навыки Data Engineer'a:
Статья из DataQuest отмечает следующие навыки, которые должен иметь уважающий себя дата инженер:
- Создание надежных пайплайнов
- Сотрудничество с группами DS-специалистов и создание для них правильных решений
Panoply опубликовал достойный материал("Как стать Data Engineer"), который также подчеркивает навыки, необходимые для профессии (советую ознакомиться).
Data Scientists или Data Engineers?
В общем, data scientist'ы разбираются в продвинутой аналитике и статистике, в то время как инженеры хорошо обращаются в программировании и работе с БД. Они не так популярны как первые, но не менее важны. В приведенной статье указывается 4 причины стать именно Data Engineer'ом, советую к прочтению.
Соотношение инженеров данных к DS-специалистам
Даже если компания / отдел понимает, что им нужны обе роли, общая проблема состоит в вопросе, сколько надо инженеров к команде дата ученых. Учитывая, что создание ETL-пайплайнов, очистка и структурирование данных требует больше усилий и человеко-часов, то по оценке - это 2-3 data engineer'а на каждого scientist'а.
Если вам понравилась статья, не стесняйтесь оценить работу в комментариях. Если же мой труд вызвал у вас обратную реакцию, то просьба сообщить об этом.
Полезные ссылки:
1. A Beginner’s Guide to Data Engineering — Part I
2. Job Comparison — Data Scientist vs Data Engineer vs Statistician
Оригинал статьи: medium.com/@rathi.ankit/who-needs-a-data-engineer-d874aa793769
Перевёл: Максим Егоров