6 лет назад
Работа с данными в Spark
Лекция в четверг (18.05) была посвящена работе с Spark (фреймворк для распределенной обработки данных) Spark позволяет работать с данными различных форматов (CSV, JSON), а также с различными базами данных (Hive, MySQL, PostgeSQL, Kafka, Amazon S3 и другими). Работа с Spark DataFrames во многом напоминает работу с pandas (хотя вывод данных не такой красивый как в pandas)...
2 года назад
Как и зачем мы сделали Spark-коннектор к Greenplum
Как и зачем мы сделали свой инструмент для обмена данными между Arenadata DB (аналитическая MPP-СУБД на базе Greenplum) и фреймворком для распределенной обработки данных Apache Spark (входит в экосистему Arenadata Hadoop), рассказывает в статье системный архитектор Arenadata. Всем привет! Я работаю системным архитектором в Arenadata. В этой статье расскажу, как и зачем мы сделали свой инструмент для обмена данными между Arenadata DB (аналитическая MPP-СУБД на базе Greenplum) и фреймворком для распределенной обработки данных Apache Spark (входит в экосистему Arenadata Hadoop)...