Обработка данных в информационных системах чаще всего проводится в три этапа: извлечение, трансформация и загрузка (Extract Transform Load, ETL). В решениях, использующих Big Data, именно с помощью ETL исходные («сырые») данные преобразуются в информацию, пригодную для бизнес-анализа. Однако с увеличением данных и усложнением аналитических задач увеличивается и количество ETL-процессов, которые необходимо планировать, отслеживать и перезапускать в случае сбоев — возникает необходимость в оркестраторе...
Apache Airflow - это платформа управления рабочими процессами с открытым исходным кодом для конвейеров обработки данных. В Airbnb оно началось в октябре 2014 года [1] как решение для управления все более сложными рабочими процессами компании. Создание Airflow позволило Airbnb программно создавать и планировать рабочие процессы, а также отслеживать их через встроенный пользовательский интерфейс Airflow . [2] [3] С самого начала проект был открыт с открытым исходным кодом, став проектом Apache Incubator в марте 2016 года и проектом верхнего уровня Apache Software Foundation в январе 2019 года...