15 подписчиков

Я бы не начинал путь в Data Engineering со Spark.

Понимаю, почему к нему тянет. Spark часто встречается в вакансиях, звучит серьёзно и выглядит как настоящий big data инструмент. Но если сразу лезть в Spark без нормальной базы, легко поймать странное ощущение: вроде что-то запускаешь, читаешь DataFrame, делаешь transform, а общей картины всё равно нет.

Мне кажется, до Spark полезнее сначала разобраться с более приземлёнными вещами: как данные попадают в первый слой, чем RAW отличается от STG, зачем нужен CORE, что вообще считается витриной и почему перед расчётом метрики нужно понимать гранулярность данных.

Когда это начинает укладываться в голове, Spark становится намного понятнее. Он перестаёт быть просто сложной технологией из вакансии и превращается в инструмент для конкретной задачи: прочитать данные, преобразовать, посчитать и записать результат.

Я сам долго воспринимал часть DE-стека как набор отдельных слов: Spark, Airflow, Hive, HDFS, витрины, пайплайны. Спокойнее стало тогда, когда я начал смотреть не на инструменты отдельно, а на путь данных.

Откуда данные пришли, куда легли, что с ними сделали, как проверили и куда отдали дальше.

После этого изучать инструменты становится сильно проще.

1 минута

7 мая