Система Data Warehouse — это продвинутая область работы с данными. Сделайте в ней первые шаги 15 июля на demo-занятии «Business Intelligence 101: развертывание и конфигурирование решения».
За 1,5 часа вы вместе с преподавателем Артемием Козырем, Senior Data Engineer, вы разберете:
- Варианты деплоя BI-решения: SaaS, Cloud App, Docker
- Конфигурация: безопасность, метаданные, уведомления
- Миграция базы метаданных
Demo-занятие проходит в рамках онлайн-курса «Data Warehouse Analyst» от OTUS, ориентированного на дата инженеров и аналитиков данных...
⚡️ Data Warehouse vs Data Lake vs Data Mesh 📌Data Warehouse — это единое корпоративное хранилище архивных данных из разных источников (систем, департаментов и прочее). Цель Data Warehouse — обеспечить пользователя (компанию и ее ключевых лиц) возможностью принимать верные решения в ключе управления бизнесом на основе целостной информационной картины. DWH — не только склад важных данных компании, но еще и основа бизнес-аналитики (BI). Именно из корпоративного хранилища компания получает сведения, необходимые для принятия управленческих и стратегических решений. 📌Data Lake (Озеро данных) — это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах. Обычно используется blob-объект (binary large object) или файл. Идея озера данных в том чтобы иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и мо. Data Lake включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, логи, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, файлы). 📌Data Mesh - дословно можно перевести как «сеть данных», — это децентрализованный гибкий подход к работе распределенных команд и распространению информации. Главное в нем — междисциплинарные команды, которые публикуют и потребляют Data-продукты, благодаря чему существенно повышают эффективность использования данных. Традиционно архитектура данных монолитна. Потребление, хранение, преобразование и вывод управляются через одно центральное хранилище (как правило, озеро данных). Data Mesh же позволяет упростить работу с распределенными пайплайнами, поддерживая отдельных потребителей, рассматривающих данные как продукт. @machinelearning