apache spark sql functions

06:44

1,0×

00:00/06:44

Валерия

320,4 тыс смотрели · 3 года назад

sfd

Nuances of programming

4 года назад

Хватит использовать Pandas, пора переходить на Spark + Scala!

Переход с Pandas на Spark и Scala не настолько труден, насколько вы можете предположить, при этом в итоге ваш код будет выполняться быстрее, и, скорее всего, качество его написания тоже возрастёт.

03:32

1,0×

00:00/03:32

IT - Это просто

1 месяц назад

Функции SQL для числовых типов данных

дата инженеретта

1 год назад

🔗Обязательные импорты в Spark-приложении # сессия from pyspark.sql import SparkSession # функции from pyspark.sql import functions as F # типы данных from pyspark.sql import types as T # оконки from pyspark.sql.window import Window F и T - это code-style, принятый в PySpark, чтобы избежать пересечений с другими либами. В коде будет так: F.function(args). И вообще импортируем только то, что нужно. import * - это моветон. // датафрейм и сессия import org.apache.spark.sql.{DataFrame, SparkSession} // функции import org.apache.spark.sql.functions._ // импорт всего // udf (кастомные функции) и оконки import org.apache.spark.sql.expressions.{UserDefinedFunction, Window} // типы данных import org.apache.spark.sql.types._ В отличие от питона, в скале нужно указывать типы аргументов в функциях, поэтому мы дополнительно импортируем DataFrame, UserDefinedFunction и Window, т.к. они наиболее часто используются. А сами оконки лежат в модуле functions. def func(df: DataFrame, time_window: Window): DataFrame = {...} #spark

07:15

1,0×

00:00/07:15

IT - Это просто

1 месяц назад

Функции SQL для символьных данных