Начните осваивать продвинутые инструменты дата инженера 27 сентября с демо-занятия «Приземление данных с помощью Apache Flink». Занятие проведет Вадим Опольский, Scala Big Data разработчик в Luxoft. За 1,5 часа рассмотрим проблемы чтения и записи данных из Apache Kafka. Познакомимся с Apache Flink и посмотрим на стенде, как можно эти проблемы решить. *** Для планирования приложений и управления ресурсами в Spark нередко применяют Yarn. Не секрет, что довольно долго Spark в Kubernetes значительно отставал по скорости и эффективности работы от Spark в Yarn. Однако сегодня производительность почти выровнялась, хоть Yarn и остается немного быстрее (приблизительно на 4–5 %). Что здесь важно отметить? Во-первых, для тестирования применялись локальные SSD-диски. То есть производительность Spark в облачном Kubernetes будет ниже по причине того, что мы задействуем S3, плюс доступ к данным происходит по сети. Да, S3-хранилище дает возможность разделить storage- и compute-слои, ну и само хранилищ