sfd
Хватит использовать Pandas, пора переходить на Spark + Scala!
Переход с Pandas на Spark и Scala не настолько труден, насколько вы можете предположить, при этом в итоге ваш код будет выполняться быстрее, и, скорее всего, качество его написания тоже возрастёт.
🔗Обязательные импорты в Spark-приложении # сессия from pyspark.sql import SparkSession # функции from pyspark.sql import functions as F # типы данных from pyspark.sql import types as T # оконки from pyspark.sql.window import Window F и T - это code-style, принятый в PySpark, чтобы избежать пересечений с другими либами. В коде будет так: F.function(args). И вообще импортируем только то, что нужно. import * - это моветон. // датафрейм и сессия import org.apache.spark.sql.{DataFrame, SparkSession} // функции import org.apache.spark.sql.functions._ // импорт всего // udf (кастомные функции) и оконки import org.apache.spark.sql.expressions.{UserDefinedFunction, Window} // типы данных import org.apache.spark.sql.types._ В отличие от питона, в скале нужно указывать типы аргументов в функциях, поэтому мы дополнительно импортируем DataFrame, UserDefinedFunction и Window, т.к. они наиболее часто используются. А сами оконки лежат в модуле functions. def func(df: DataFrame, time_window: Window): DataFrame = {...} #spark