Найти в Дзене
Поддержите автораПеревод на любую сумму
Я бы не начинал путь в Data Engineering со Spark. Понимаю, почему к нему тянет. Spark часто встречается в вакансиях, звучит серьёзно и выглядит как настоящий big data инструмент. Но если сразу лезть в Spark без нормальной базы, легко поймать странное ощущение: вроде что-то запускаешь, читаешь DataFrame, делаешь transform, а общей картины всё равно нет. Мне кажется, до Spark полезнее сначала разобраться с более приземлёнными вещами: как данные попадают в первый слой, чем RAW отличается от STG, зачем нужен CORE, что вообще считается витриной и почему перед расчётом метрики нужно понимать гранулярность данных. Когда это начинает укладываться в голове, Spark становится намного понятнее. Он перестаёт быть просто сложной технологией из вакансии и превращается в инструмент для конкретной задачи: прочитать данные, преобразовать, посчитать и записать результат. Я сам долго воспринимал часть DE-стека как набор отдельных слов: Spark, Airflow, Hive, HDFS, витрины, пайплайны. Спокойнее стало тогда, когда я начал смотреть не на инструменты отдельно, а на путь данных. Откуда данные пришли, куда легли, что с ними сделали, как проверили и куда отдали дальше. После этого изучать инструменты становится сильно проще.
3 дня назад
DAG в Airflow зеленый, а витрина пустая
DAG в Airflow зеленый, ошибок в логах нет, а витрина за нужную дату пустая. На первый взгляд кажется, что где-то сломался Airflow. На практике чаще всего проблема лежит ниже: в данных, параметрах, фильтрах, join или конкретном слое пайплайна. Привет, меня зовут Дмитрий. Я работаю Data Engineer и веду блог по инженерии данных. Сегодня хочу разобрать ситуацию, которая в учебных примерах встречается редко, а в нормальном batch-пайплайне вполне может всплыть: DAG в Airflow прошел success, задачи зеленые, ошибок в логах нет, а в нужной витрине за дату 0 строк...
5 дней назад
Почему SQL и Python ещё не означают, что ты готов к Data Engineering
Привет, меня зовут Дмитрий. Я работаю Data Engineer и веду блог по Data Engineering. Хочу поделиться наблюдением, которое сам довольно болезненно проживал в начале и которое до сих пор часто вижу у тех, кто пытается зайти в DE. Очень многим кажется, что маршрут здесь довольно прямой: выучил SQL, потом начал Python, дальше потихоньку добираешь стек и заходишь в профессию. На бумаге это звучит логично. На практике именно на этом месте люди часто и застревают. Причём застревают надолго. Они уже не...
1 неделю назад
Почему я стараюсь явно задавать типы в ETL
Есть мелочь, на которой пайплайн может споткнуться вообще в тупом месте. Недавно словил неприятную ошибку в трансформации. Логов было мало, по ним быстро не читалось, где именно всё поехало, а на вставке в следующий слой данные начали вести себя не так, как я ожидал. После нескольких проверок причина оказалась довольно приземлённой: часть колонок приехала не в тех типах, которые должны были быть на выходе. С тех пор я всё чаще явно привожу типы в ETL и заранее фиксирую схему. Особенно в местах, где...
2 недели назад
Что вам сейчас ближе всего в Data Engineering?
Опрос
2 недели назад