6 прочтений · 3 дня назад
PySpark vs Pandas | Наглядная разница
Всем привет! И в сегодняшнем посте мы рассмотрим 2 популярных инструмента для обработки данных PySpark и Pandas на примере сгенерированных данных в локальном режиме. Очень часто слышу от людей, которые только-только пришли в область дата инженерии или ходят вокруг нее, что PySpark - это продвинутый Pandas. Отчасти, это так, но не совсем. Давайте разбираться. Начнем с истории PySpark. Продолжим историей Pandas. То есть pandas вышел раньше и это его первый плюс. Как следствие - большая популярность...
509 прочтений · 4 года назад
Apache Spark: гайд для новичков
Что такое Apache Spark? Специалисты компании Databricks, основанной создателями Spark, собрали лучшее о функционале Apache Spark в своей книге Gentle Intro to Apache Spark (очень рекомендую прочитать)