Техлид с опытом в дата-инжиниринге, выложил на Reddit в сабреддите r/dataengineering свой взгляд на open source инструменты для 2025 года. Он три года работал в изолированных средах, где облака были под запретом, и сосредотачивался больше на платформенной части, чем на работе с данными. За это время к задачам дата-инженеров добавились DevOps, MLOps, LLM, RAG и дата-лейкхаусы, помимо классических дата-стеков и хранилищ. Его подборка — это микс проверенных инструментов вроде Apache Airflow, Spark, Kafka, dbt, PostgreSQL, ClickHouse и других, которые он использует для разных кейсов. Например, для оркестрации — Airflow, для аналитики — Superset, для машинного обучения — MLflow и JupyterHub. Он советует брать минимум инструментов под конкретные задачи, а не тащить всё подряд. Подробные гайды по развертыванию в Docker и Kubernetes есть на его сайте datacraftsman.com.au, но они ещё в работе. В комментариях народ активно обсуждает. Кто-то придирается, что Docker не совсем open source (хотя я
Техлид с опытом в дата-инжиниринге, выложил на Reddit в сабреддите r/dataengineering свой взгляд на open source инструменты для 2025 года
4 июля 20254 июл 2025
3
1 мин