595 подписчиков
Apache Airflow — это платформа с открытым исходным кодом для разработки, планирования и мониторинга рабочих процессов. Расширяемая среда Python Airflow позволяет создавать рабочие процессы, связанные практически с любой технологией. Веб-интерфейс помогает управлять состоянием ваших рабочих процессов. Airflow легко мастабируется. Основная характеристика рабочих процессов Airflow заключается в том, что все рабочие процессы определены в коде Python: Взгляните на следующий фрагмент кода: Здесь вы видите: DAG-процесс под названием demo, запускается с 1 января 2022 года один раз в день...
1 год назад
384 подписчика
Airflow — исторически важный инструмент в экосистеме обработки данных. В нем появилась возможность комбинировать модель строгого направленного ациклического графа (DAG) с гибкостью Python таким образом, чтобы она подходила для широкого спектра вариантов использования. Сегодня многие инженеры по обработке данных работают напрямую со своими коллегами — аналитиками данных. Процессы протекают быстро, динамично и иногда непредсказуемо. Airflow многое сделал правильно, но все-таки он не лишен недостатков...
2 года назад
17 подписчиков
Как установить Apache AirFlow с помощью pip

Apache AirFlow – очень мощный инструмент для реализации процессов переноса и обработки данных. Он создан и поддерживается командой свободных разработчиков. На самом деле он состоит из целого ряда продуктов с открытым исходным кодом и доступен для установки совершенно бесплатно.

В общем, если вам предстоит решать задачи я-ля: выгрузить 100-500 тысяч записей (и больше) из БД Oracle и перенести их в БД PostgreSQL или сделать выгрузку витрины данных за текущий период, сохранить её в Excel и отправить по электронной почте n-му количеству адресатов и т.д. и этих задач очень много, тогда однозначно стоит “потрогать” Apache AirFlow.

В этой статье вы найдёте простой Cook Book, с помощью которого можно быстро установить AirFlow на виртуальную машину с Ubuntu, используя pip. Итак, у Вас есть виртуалка с предустановленной Ubuntu (я использую 22.04 LTS). Также должен быть установлен Python версии не ниже 3.8. Проверить версию Python можно командой

python3 --version

Если всё норм, тогда можно начать установку с определения системной переменной AIRFLOW_HOME

export AIRFLOW_HOME=~/airflow

Затем определяем переменную с устанавливаемой версией AirFlow

AIRFLOW_VERSION=2.8.1

Добавляем переменную для хранения версии Python, адаптированную для установки

PYTHON_VERSION="$(python --version | cut -d " " -f 2 | cut -d "." -f 1-2)"

Формируем переменную для URL списка зависимостей


поверьте – он довольно обширный.

Теперь всё готово к непосредственной установке, которая выполняется командой

pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}"

Если установка прошла успешно, можно сразу запустить standalone версию

airflow standalone

Для быстрого старта это как раз то, что нужно. Для production такой вариант не подойдёт, но он идеален для первого знакомства и последующего обучения.

Пользовательский интерфейс доступен по URL localhost:8080. Идеальный момент для того, чтобы создать свой первый DAG.
5 месяцев назад