Всех приветствую! Это моя первая статья. Пока разбираюсь с тем, как тут все устроено. Поэтому давайте познакомимся и поднимем вопрос, волнующий нас всех -
"Кто такой Data Engineer и как он связан с большими данными"? А, для людей, которые оба термина не знают переформулирую - "Как зайти в самую высокооплачиваемую профессию в IT в РФ?"
Data Engineering - Почему меня принимают за тебя? Отвечай!
Big Data - Сядь.
Data Engineering - Так почему меня принимают за тебя?
Big Data - А ты не знаешь?
Data Engineering - Нет, не знаю.
Big Data - Нет, знаешь. Почему все вокруг путают нас с тобой?
Data Engineering - Эээм, нет, я не знаю…
Меня зовут Баданов Артем, я являюсь тем самым отечественным дата инженером, который постарается рассказать Вам о профессии. В своей жизни я кем только не работал - был разработчиком SAP, работал в МТС, потом занимался GameDev(разработкой игр), писал сайты, учил C++/C#, не понимая зачем мне все это нужно. Что-то оплачивалось, а что-то нет. Но, в определенный момент я психанул. Зашел на hh.ru, создал резюме и начал отправлять его на все вакансии. Время шло, мне никто не звонил, не писал, руки опускались - я не понимал, что мне делать и нужно ли мне вообще программирование.
Настал день X, когда меня пригласили на оплачиваемую стажировку на позицию Data Engineer. Тогда то все и началось.
С того момента прошло уже 4 года. Я вырос до грейда Senior, создал собственный курс, написал куча статей по теме работы с данными. И теперь вещаю для Вас. Бесплатно.
Рассмотрим популярное в России направление - большие данные, они же Big Data. Это те данные(терабайты, петабайты,гигабайты), которые нужно специализированно хранить, обрабатывать и отдавать под нужды бизнеса. Для этого, очевидно, используется стек технологии (увы, не Отечественных), которому обучиться достаточно просто. Да, он объемный, сложный. Но оплачивается достойно. Big Data используется в различных сферах: маркетинг, анализ пользовательских данных, медицина, финансы и т.д.
А уже в Big Data, как в область, входит куча вакансий, выделю основные -
- Data Engineer - строит и поддерживает инфраструктуру для сбора, хранения, обработки данных.
- Data Analytic - анализирует данные для извлечения инсайтов и помогает в принятии бизнес-решений. Визуализирует результаты и создает отчеты.
- Data Scientist - строит модели для прогнозирования и решения сложных задач на основе данных с использованием статистики и машинного обучения.
- Data OPS - обеспечивает надежность и автоматизацию обработки данных, управляет конвейерами данных и интеграцией между различными системами.
- Data Manager - data manager координирует работу Data Engineers, Data Analysts, и Data Scientists, обеспечивая правильное использование данных в рамках бизнес-целей.
Все выдумки HR-ов по поводу того, что есть такая профессии, как разработчик баз данных, разработчик DWH, аналитик-разработчик-пулеметчик и прочие выдуманные профессии, это все никак к теме не относится. Всегда читайте должностную инструкцию!
Итак, давайте вникать в Data Engineering подробнее. Data Engineering — это процесс проектирования, создания и поддержки инфраструктуры для обработки данных. В Data Engineering фокус смещён на создание эффективных систем для сбора, хранения и обработки данных, чтобы другие специалисты (например, аналитики данных или инженеры машинного обучения) могли использовать эти данные для анализа или построения моделей. Очевидно, что профессия так и называется Data Engineer. Сокращенно DE. Допускается называть Big Data Engineer - разницы нет.
Ну понятно, что ничего не понятно. В чем особенность профессии? Сколько платят? Какой стек? Отвечаю!
Если чуть-чуть вернутся назад в прошлое, то можно найти профессию "Разработчик баз данных". Из требований - SQL, знание теории баз данных. А потом резко возник Data Engineer, который может решить все задачи этой профессии + сможет умело данные обработать на Python/Java/Scala. И возник дефицит кадров. Люди не успевают (а чаще всего не понимают), что нужно учить, чтобы прокачаться в области Data Engineer.
Отсюда, очевидно, вытекают большуууууущие (такие же как и данные) зарплаты. Так, около нулевая позиция оцениться рынком от 70 т.р. на руки. Дистанционно!
Какой стек используется?
- Python/Java/Scala (на выбор)
- SQL
- PostgreSQL/Clickhouse
- Экосистема Hadoop (Spark, MapReduce, HDFS, Yarn, Hive)
- GitLab
- Airflow
- Grafana
- Docker
- И многое другое.
Что изучать в первую очередь? Прямо как в списке. Подойдут любые книги/сайты/видео. Хочется сгруппированной информации с видео, материалом, заданиями и тестами - тогда добро пожаловать к нам на курс на платформе Stepik.
Таким образом, Big Data - это область, которая занимается различные операциями с большими данными (терабайты, петабайты). А Data Engineer тот, кто эти операции должен сделать. Все просто.
Не забудьте подписаться - далее пойдут советы и реальные инструкции к тому, как с данными работать!
Мы на дзене | Мы в телеграмме | Мы на Stepik