Познакомимся с библиотекой Spark и её ключевым типом данных — отказоустойчивым распределённым набором данных (англ. Resilient Distributed Dataset, RDD). Apache Spark — фреймворк для распределённых вычислений с открытым исходным кодом. Это разработка компании Apache Software Foundation. Spark позволяет распределять и обрабатывать данные на нескольких компьютерах одновременно. Изначально был написан на языке программирования Scala. Для работы в Python выпустили библиотеку PySpark (англ. «искра для Python»). Отказоустойчивые распределённые наборы данных — тип структуры данных, которые можно распределить между несколькими узлами в кластере. RDD — основной инструмент для преобразования данных и часть датафреймов. Для вызова из библиотеки PySpark импортируем объект SparkContext (англ. «контекст для Spark»). Он отвечает за операции с кластером в Spark. Инициализируем объект SparkContext и передадим ему настройки. Это могут быть URL-адрес мастер-узла и название приложения. Вызовом функции sc.p