Big Data Technologies. Лекция 10. Spark SQL
PySpark vs Pandas | Наглядная разница
Всем привет! И в сегодняшнем посте мы рассмотрим 2 популярных инструмента для обработки данных PySpark и Pandas на примере сгенерированных данных в локальном режиме. Очень часто слышу от людей, которые только-только пришли в область дата инженерии или ходят вокруг нее, что PySpark - это продвинутый Pandas. Отчасти, это так, но не совсем. Давайте разбираться. Начнем с истории PySpark. Продолжим историей Pandas. То есть pandas вышел раньше и это его первый плюс. Как следствие - большая популярность...
Spark и RDD
Познакомимся с библиотекой Spark и её ключевым типом данных — отказоустойчивым распределённым набором данных (англ. Resilient Distributed Dataset, RDD). Apache Spark — фреймворк для распределённых вычислений с открытым исходным кодом. Это разработка компании Apache Software Foundation. Spark позволяет распределять и обрабатывать данные на нескольких компьютерах одновременно. Изначально был написан на языке программирования Scala. Для работы в Python выпустили библиотеку PySpark (англ. «искра для Python»)...