Airflow
Apache Airflow — это платформа с открытым исходным кодом для разработки, планирования и мониторинга рабочих процессов. Расширяемая среда Python Airflow позволяет создавать рабочие процессы, связанные практически с любой технологией. Веб-интерфейс помогает управлять состоянием ваших рабочих процессов. Airflow легко мастабируется. Основная характеристика рабочих процессов Airflow заключается в том, что все рабочие процессы определены в коде Python: Взгляните на следующий фрагмент кода: Здесь вы видите: DAG-процесс под названием demo, запускается с 1 января 2022 года один раз в день...
06:44
1,0×
00:00/06:44
364 тыс смотрели · 3 года назад
Как я автоматизировал рутину с ETL: от Python-скриптов до Airflow
ETL (Extract, Transform, Load) — это сердце аналитики данных, но, хм, какая же это порой рутина! Выгружай данные, чисти их, пихай в базу — и так по кругу. Я, как любой нормальный человек, не очень люблю повторять одно и то же, поэтому расскажу, как я укрощал ETL-процессы: от кустарных Python-скриптов до Airflow, а заодно пробегусь по другим инструментам, их плюсам, минусам и кому они зайдут. Поехали! 😎 Когда я только ворвался в аналитику данных несколько лет назад, ETL для меня звучало как что-то из научной фантастики...