В работе с Big Data используется много разных инструментов. Даже для одних и тех же задач существует несколько технологий, у каждой из которых свои особенности и недостатки. Может быть сложно разобраться во всем этом многообразии и что-то выбрать. Чтобы помочь в этом, мы расскажем об одном из инструментов — Apache Spark. Вы узнаете, что это такое, как он используется при работе с большими данными и чем он может помочь. Также мы сравним его с другой похожей технологией — Hadoop MapReduce. Что такое...
Переход с Pandas на Spark и Scala не настолько труден, насколько вы можете предположить, при этом в итоге ваш код будет выполняться быстрее, и, скорее всего, качество его написания тоже возрастёт.