7 подписчиков

🔹 Data Lake: куда складывать сырые данные и зачем

ВчераВчера

~1 мин

🔹 Хотите сохранить все raw data в одном месте и давать доступ разным командам без потери контекста? 🔸 Центральная цель — перестать дублировать источники и трансформации. Raw data хранится как есть, чтобы можно было перепроцессить или отладить результаты позже. 🔸 Организация: зоны — raw (immutable), processed/cleansed, curated. Часто реализуется на S3 (Amazon Simple Storage Service) как объектном хранилище; schema-on-read решает проблему разнородных форматов при big data. 🔸 Когда нужен Data Lake: много источников, большие объёмы и команды, которым нужны разные представления данных или повторная обработка — тогда централизованное raw-хранилище экономит время и снижает ошибки. s3://company-data-lake/ raw/ app1/2026-03-15/log.json processed/ app1/date=2026-03-15/part-0001.parquet 📚 Держите raw неизменным на S3, разделяйте на зоны и используйте schema-on-read — это упрощает расследование и повторную обработку данных. #CODERIKK #DE #Junior ➡️ Мы в Telegram - Сетке - Дзен Буду рад

🔹 Хотите сохранить все raw data в одном месте и давать доступ разным командам без потери контекста?

🔸 Центральная цель — перестать дублировать источники и трансформации. Raw data хранится как есть, чтобы можно было перепроцессить или отладить результаты позже.

🔸 Организация: зоны — raw (immutable), processed/cleansed, curated. Часто реализуется на S3 (Amazon Simple Storage Service) как объектном хранилище; schema-on-read решает проблему разнородных форматов при big data.

🔸 Когда нужен Data Lake: много источников, большие объёмы и команды, которым нужны разные представления данных или повторная обработка — тогда централизованное raw-хранилище экономит время и снижает ошибки.

s3://company-data-lake/

raw/

app1/2026-03-15/log.json

processed/

app1/date=2026-03-15/part-0001.parquet

📚 Держите raw неизменным на S3, разделяйте на зоны и используйте schema-on-read — это упрощает расследование и повторную обработку данных.

#CODERIKK #DE #Junior

➡️ Мы в Telegram - Сетке - Дзен

Буду рад вашей реакции здесь⬇️