Интеграция и преобразование данных — это процесс извлечения данных из удаленных систем управления базами данными (СУБД), преобразование данных и загрузка их в локальную систему управления данными. Этот процесс называется ETL (Extract, Transform, Load) — извлечение, преобразование и загрузка. Часто специалисты по обработке данных предлагают термин ELT — «извлечение, загрузка, преобразование», подчеркивая тот факт, что данные куда-то сбрасываются, и за данные отвечает сам специалист по данным. Также добавилась ещё одна сторона этого процесса: «обработка и очистка данных».
Вот наиболее широко используемые инструменты интеграции и преобразования данных с открытым исходным кодом:
Apache AirFlow — это библиотека для разработки, планирования и мониторинга рабочих ETL/ELT процессов. Используется код на языке Python. Apache AirFlow первоначально создан компанией AirBNB;
KubeFlow — это платформа машинного обучения с открытым исходным кодом, предназначенная для использования конвейеров машинного обучения для организации сложных рабочих процессов, выполняемых в Kubernetes;
Apache Kafka — это распределённая, горизонтально масштабируемая система обработки сообщений, которая позволяет в режиме онлайн обеспечить сбор данных о поведении пользователя на сайте; потоки информации с конечных устройств IoT (Интернет вещей); агрегация журналов работы приложений и статистики из распределенных приложений для ETL-хранилищ и журналов событий. Apache Kafka создан на базе LinkedIn;
Apache Nifi — предназначен для автоматизации потока данных между программными системами. который предоставляет собой очень хороший визуальный редактор;
Apache Spark SQL — расширение Apache Spark для работы со структурированными данными, которое позволяет использовать ANSI SQL и масштабируется до вычислительных кластеров из 1000 узлов.
NodeRED, который также предоставляет визуальный редактор. Он потребляет так мало ресурсов, что работает даже на небольших устройствах, таких как Raspberry Pi, был разработан IBM для соединения аппаратных устройств, API-интерфейсов и онлайн-сервисов в рамках Интернета вещей.
Интернет вещей (англ. internet of Things, IoT) — концепция сети передачи данных между физическими объектами («вещами»), оснащёнными встроенными средствами и технологиями для взаимодействия друг с другом или с внешней средой. Предполагается, что организация таких сетей способна перестроить экономические и общественные процессы, исключить из части действий и операций необходимость участия человека.