2K подписчиков

Чему научил запуск миллиона исполнителей на Spark

В этом году на конференции Data+AI Summit Чжоу Цзян и Ааруна Годти из Apple выступали с докладом на интересную тему: им удалось построить централизованный кластер Apache Spark на базе Kubernetes,...

В этом году на конференции Data+AI Summit Чжоу Цзян и Ааруна Годти из Apple выступали с докладом на интересную тему: им удалось построить централизованный кластер Apache Spark на базе Kubernetes, который обрабатывает более 380 тыс. заданий Spark в день. Этого объема заданий хватает, чтобы поддерживать аналитические процессы и эксперименты дата-сайентистов компании Apple. Мы прочитали и перевели конспект их доклада, а перевод опубликовали в нашем блога не Хабре.

Из материала вы узнаете, какие решения помогут снизить давление на кластер Kubernetes из-за большого количества одновременно работающих приложений Spark, как устроена устроена платформа данных в Apple и как выглядит полный жизненный цикл приложения Spark. Кроме того в статье вас ждет подробная инструкция о том, как выполнять масштабные задания Spark с Kubernetes.

Схемы и графики для лучшего понимания — в материале.