Тем, кто только начинает погружаться в обработку больших данных, может быть интересна эта статья. В ней раскрываются (до определенного уровня глубины) следующие вопросы: Какие особенности языка Python применимы для BigData? Как использовать Apache Spark и PySpark? Как разрабатывать PySpark программы? Как запустить PySpark программу локально на небольшом наборе данных? Что делать дальше, если вы хотите улучшить свои навыки работы с PySpark и распределенными системами?
First Steps With PySpark and Big Data Processing