Изначально загрузка данных в платформу строилась на классическом ETL-подходе с использованием самописного Python-фреймворка на основе PySpark и SQL UDF для загрузки слоев внутри хранилища данных.Открытые системы
Интеграция с основными и самыми крупными источниками данных была выстроена на прямых подключениях к базам данных и инкрементальной загрузке данных путем фильтрации SQL-запросов по бизнес-дате.Открытые системы
Да и сама реализация ETL имела ряд недостатков: каждый пайплайн нужно было разрабатывать вручную, писать пользовательскую функцию (user-defined function, UDF) под каждую загрузку, расставлять зависимости.Открытые системы
Платформа данных должна включать в себя озеро данных для холодного хранения, DWH для детальных данных, витрины данных для быстрого доступа к подготовленным или очищенным данным.Открытые системы