#python #spark #pandas #анализ данных Синтаксис Spark не схож с Pandas, поэтому пользователю тяжело переключится с одного на другое. Для примера, с помощью Pandas и PySpark создадим из csv-файла DataFrame, в который добавим новую колонку ‘x2’ со значениями из колонки x во второй степени. Pandas: Import pandas as pd
Df= pd.read_csv(“data.csv”)
Df.columns=[‘x’, ‘y’, ‘z’]
Df[‘x2’]=df.x*df.x PySpark: Df=(spark.read
.option(“inferSchema”, “true”)
.csv(“data.csv”))
Df=df.toDF(‘x’, ‘y’, ‘z’)
Df=df.withColumn(‘x2’, df.x*df.x) Синтаксис PySpark интуитивно менее понятен, чем Pandas, в связи с чем у аналитика данных возникают сложности в использовании инструментов PySpark. Овладение ими занимает определенное время, что в условиях сжатых сроков выполнения задач, может быть критично. На помощь приходит библиотека Koalas, которая для версий Spark 3.1 и ниже является отдельной, но начиная с 3.2 уже включена в PySpark из коробки. В данной статье постараюсь ответить на вопрос: а так ли мягки коа