Найти в Дзене
10,7 тыс подписчиков

Зачем Data-инженеру Spark


В Почте Mail.ru работают со стеком Hadoop, Hive, Clickhouse, Spark. В данной статье на Хабре Data-инженер из команды Почты Mail.Ru остановился на некоторых аспектах работы с данными в Spark.

Он ответил на следующие вопросы: как превратить 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов и построить своё классное хранилище без последующей переделки.

Также в статье: архитектурные паттерны в хранилище Почты, эффективное хранилище данных, форматы хранения данных, параллельная обработка данных в Spark, запись колоночных файлов, запросы к данным в Spark и др.


Зачем Data-инженеру Spark  В Почте Mail.ru работают со стеком Hadoop, Hive, Clickhouse, Spark. В данной статье на Хабре Data-инженер из команды Почты Mail.
Около минуты