Найти тему

Как установить Apache AirFlow с помощью pip


Apache AirFlow – очень мощный инструмент для реализации процессов переноса и обработки данных. Он создан и поддерживается командой свободных разработчиков. На самом деле он состоит из целого ряда продуктов с открытым исходным кодом и доступен для установки совершенно бесплатно.

В общем, если вам предстоит решать задачи я-ля: выгрузить 100-500 тысяч записей (и больше) из БД Oracle и перенести их в БД PostgreSQL или сделать выгрузку витрины данных за текущий период, сохранить её в Excel и отправить по электронной почте n-му количеству адресатов и т.д. и этих задач очень много, тогда однозначно стоит “потрогать” Apache AirFlow.

В этой статье вы найдёте простой Cook Book, с помощью которого можно быстро установить AirFlow на виртуальную машину с Ubuntu, используя pip. Итак, у Вас есть виртуалка с предустановленной Ubuntu (я использую 22.04 LTS). Также должен быть установлен Python версии не ниже 3.8. Проверить версию Python можно командой

python3 --version

Если всё норм, тогда можно начать установку с определения системной переменной AIRFLOW_HOME

export AIRFLOW_HOME=~/airflow

Затем определяем переменную с устанавливаемой версией AirFlow

AIRFLOW_VERSION=2.8.1

Добавляем переменную для хранения версии Python, адаптированную для установки

PYTHON_VERSION="$(python --version | cut -d " " -f 2 | cut -d "." -f 1-2)"

Формируем переменную для URL списка зависимостей


поверьте – он довольно обширный.

Теперь всё готово к непосредственной установке, которая выполняется командой

pip install "apache-airflow==${AIRFLOW_VERSION}" --constraint "${CONSTRAINT_URL}"

Если установка прошла успешно, можно сразу запустить standalone версию

airflow standalone

Для быстрого старта это как раз то, что нужно. Для production такой вариант не подойдёт, но он идеален для первого знакомства и последующего обучения.

Пользовательский интерфейс доступен по URL localhost:8080. Идеальный момент для того, чтобы создать свой первый DAG.
Как установить Apache AirFlow с помощью pip  Apache AirFlow – очень мощный инструмент для реализации процессов переноса и обработки данных. Он создан и поддерживается командой свободных разработчиков.
1 минута