17 подписчиков

Работа с данными в Spark

18 мая 201818 мая 2018

~1 мин

Лекция в четверг (18.05) была посвящена работе с Spark (фреймворк для распределенной обработки данных) Spark позволяет работать с данными различных форматов (CSV, JSON), а также с различными базами данных (Hive, MySQL, PostgeSQL, Kafka, Amazon S3 и другими). Работа с Spark DataFrames во многом напоминает работу с pandas (хотя вывод данных не такой красивый как в pandas). В Spark есть много возможностей: работа с регулярными выражениями, датами, строками, числами. Также есть возможность создавать свои пользовательские функции. В конце занятия была лекция про то, как все устроено внутри Spark. Узнали, что использование Spark DataFrames дает выигрыш по скорости по сравнению со Spark RDD.

Лекция в четверг (18.05) была посвящена работе с Spark (фреймворк для распределенной обработки данных)

Spark позволяет работать с данными различных форматов (CSV, JSON), а также с различными базами данных (Hive, MySQL, PostgeSQL, Kafka, Amazon S3 и другими).

Работа с Spark DataFrames во многом напоминает работу с pandas (хотя вывод данных не такой красивый как в pandas).

В Spark есть много возможностей: работа с регулярными выражениями, датами, строками, числами. Также есть возможность создавать свои пользовательские функции.

В конце занятия была лекция про то, как все устроено внутри Spark. Узнали, что использование Spark DataFrames дает выигрыш по скорости по сравнению со Spark RDD.