Найти в Дзене
Максим Кульгин

Техлид с опытом в дата-инжиниринге, выложил на Reddit в сабреддите r/dataengineering свой взгляд на open source инструменты для 2025 года

Техлид с опытом в дата-инжиниринге, выложил на Reddit в сабреддите r/dataengineering свой взгляд на open source инструменты для 2025 года. Он три года работал в изолированных средах, где облака были под запретом, и сосредотачивался больше на платформенной части, чем на работе с данными. За это время к задачам дата-инженеров добавились DevOps, MLOps, LLM, RAG и дата-лейкхаусы, помимо классических дата-стеков и хранилищ. Его подборка — это микс проверенных инструментов вроде Apache Airflow, Spark, Kafka, dbt, PostgreSQL, ClickHouse и других, которые он использует для разных кейсов. Например, для оркестрации — Airflow, для аналитики — Superset, для машинного обучения — MLflow и JupyterHub. Он советует брать минимум инструментов под конкретные задачи, а не тащить всё подряд. Подробные гайды по развертыванию в Docker и Kubernetes есть на его сайте datacraftsman.com.au, но они ещё в работе. В комментариях народ активно обсуждает. Кто-то придирается, что Docker не совсем open source (хотя я

Техлид с опытом в дата-инжиниринге, выложил на Reddit в сабреддите r/dataengineering свой взгляд на open source инструменты для 2025 года.

Он три года работал в изолированных средах, где облака были под запретом, и сосредотачивался больше на платформенной части, чем на работе с данными. За это время к задачам дата-инженеров добавились DevOps, MLOps, LLM, RAG и дата-лейкхаусы, помимо классических дата-стеков и хранилищ. Его подборка — это микс проверенных инструментов вроде Apache Airflow, Spark, Kafka, dbt, PostgreSQL, ClickHouse и других, которые он использует для разных кейсов. Например, для оркестрации — Airflow, для аналитики — Superset, для машинного обучения — MLflow и JupyterHub. Он советует брать минимум инструментов под конкретные задачи, а не тащить всё подряд. Подробные гайды по развертыванию в Docker и Kubernetes есть на его сайте datacraftsman.com.au, но они ещё в работе.

В комментариях народ активно обсуждает. Кто-то придирается, что Docker не совсем open source (хотя ядро Moby под лицензией Apache), и предлагает Podman. Другие советуют добавить SQLMesh вместо dbt, потому что у dbt может быть риск ухода в платную зону. Есть идеи добавить Redash для визуализации или Ballista с DataFusion для замены Spark. DataCraftsman открыт к предложениям, уже задумался про Open Policy Agent для контроля доступа в Trino и хвалит Proxmox для домашних VM. В целом, его пост собрал 62 апвоута против 25 даунвоутов за пару часов, и видно, что тема зашла — люди делятся опытом и спорят, что лучше для дата-инжиниринга.