В рамках нашей новой статьи рассмотрим один из популярных инструментов ETL подготовки данных Airflow для аналитической базы данных ClickHouse. Давайте начнем с того, что разберем, что же это за такие инструменты ClickHouse и Airflow и зачем может понадобиться их использовать вместе. Что такое ClickHouse и зачем он нужен? ClickHouse – это распределенная аналитическая колоночная СУБД, разработанная Яндексом. Ее отличительной особенностью является эффективное выполнение сложных аналитических запросов на больших объемах данных...
Обработка данных в информационных системах чаще всего проводится в три этапа: извлечение, трансформация и загрузка (Extract Transform Load, ETL). В решениях, использующих Big Data, именно с помощью ETL исходные («сырые») данные преобразуются в информацию, пригодную для бизнес-анализа. Однако с увеличением данных и усложнением аналитических задач увеличивается и количество ETL-процессов, которые необходимо планировать, отслеживать и перезапускать в случае сбоев — возникает необходимость в оркестраторе...