ETL (Extract , Transform , Load — дословно “извлечение, преобразование, загрузка”) — это один из основных процессов в управлении хранилищами данных.
Так как ETL это процесс, то можно разделить его на несколько этапов:
- загрузка данных из источников, задача этого этапа собрать и загрузить в хранилище структурированные и не структурированные данные из различных источников для дальнейшей обработки
- проверка данных на валидность, задача этого этапа проверить данные на так называемое качество и целостность. При наличии ошибок стоит вернутся на предыдущий этап для корректировки системы приема данных если это невозможно, то необходимо данные очистить от ошибок или, например дубликатов
- структуризация данных, независимо от типа данных - структурированные и не структурированные, проще работать аналитикам, да и вести разработку удобнее на структурированных данных, так же из общего потока данных нужно выделить ту часть, которая необходима для решения той или иной задачи
- агрегация данных, на этом этапе, по сути, идет основная работа с самими данными, тут проще на примере. Пользователю в большинстве нужна часть данных, то есть некая выборка, которая позволит извлечь некую информацию, на основе которой можно принять бизнес-решение, поэтому перебирать очень долго весь слой данных бессмысленно. В результате агрегации выделяется только необходимый пласт данных, который имеет подготовленную схему данных, из которой можно в соответствии с задачей оперативно и удобно выгрузить новые показатели
- выгрузка данных, когда в рамках очистки и агрегации получена итоговая витрина ее нужно выгрузить в целевую систему или целевое (обычно быстрое хранилище), для интеграции с какими ни будь системами визуализации данных
Для построения процесса ETL существует много систем и инструментов. Самая, наверное, известная система – это Informatica , а из известных инструментов можно выделить Apache Oozie и Apache airflow . Каждый из этих инструментов достоин отдельного обсуждения в последующих статьях.
Если у кого, то есть мысли или вопросы по данной теме, добро пожаловать в комменты.