В статье рассказываем, что такое DWH и как работает корпоративное хранилище данных. Даем краткий алгоритм внедрения и описываем преимущества: что получает бизнес, используя DWH.
Что такое DWH простыми словами
DWH (Data Warehouse, корпоративное хранилище данных, КХД) – система, которая собирает, структурирует и обрабатывает данные из разных источников, а также готовит их для бизнес-аналитики и отчетности.
В большинстве компаний ведется учет всех данных, необходимых для принятия решений, но они хранятся в разных системах. При необходимости аналитики или отчетности возникают сложности:
- Ручной сбор данных отнимает время и не исключает ошибок
- Не все данные подходят для аналитики - их надо актуализировать, очистить, обогатить
- Хранение исторических данных в операционных БД нецелесообразно, теряется часть важной информации
- Готовые отчеты нужно ждать, и бизнес не может принимать своевременные решения на их основе
DWH решает проблемы сбора, хранения и быстрой доставки в BI как текущих, так и архивных данных компании.
Как работает Data Warehouse
- Источниками данных для хранилища могут выступать:
- CRM-системы
- ERP-системы
- Базы данных
- Excel-файлы
- Личные кабинеты маркетплейсов
- И другие системы
2. С помощью процессов ETL (Extract, Transform, Load) и ELT (Extract, Load, Transform) данные извлекаются из источников, очищаются, преобразуются и загружаются в DWH
3. В хранилище данные приводятся к единой структуре, связываются между собой и формируются в витрины данных (data marts) - срезы данных, ориентированные на конкретную задачу бизнеса
4. Подготовленные данные становятся доступными для BI-аналитики, отчетности, а также используются в ML, AI и других data-проектах
Какие задачи решает корпоративное хранилище данных
Современная BI-аналитика в сочетании с единым корпоративным хранилищем данных открывает новые возможности для управления бизнесом.
- Централизация и обеспечение доступа к данным
DWH объединяет данные из разных систем, очищает и приводит их к единой структуре для удобной и эффективной аналитики
- Повышение скорости аналитики
Если данные хранятся в сотнях тысяч строк, на выполнение стандартных запросов уходит много времени. DWH позволяет строить отчеты в BI значительно быстрее
- Единая версия данных для бизнеса
После внедрения DWH все пользователи работают с едиными согласованными данными, доступными в BI в виде готовых дашбордов
- Анализ исторических данных и трендов
DWH хранит как текущие, так и исторические данные, что позволяет анализировать динамику и строить прогнозы
- Снижение нагрузки на информационные системы
Подготовка данных к анализу в пространстве КХД помогает снизить нагрузку на операционные ИС и улучшить их производительность
- Создание персональных отчетов и дашбордов
Хранилище позволяет настраивать доступ к данным и формировать отчеты с учетом ролей и задач пользователей
- Обеспечение безопасности данных
DWH обеспечивает контроль доступа, шифрование и мониторинг данных для защиты конфиденциальной информации (соблюдение 52-ФЗ или GDPR)
Преимущества DWH для бизнеса
Примеры применения DWH в бизнесе
Корпоративные хранилища данных применяются в большинстве отраслей, где важно работать с большими объемами данных и строить аналитику по разным направлениям бизнеса
Автоматизация аналитики продаж KASSIR.RU с помощью DWH и BI от Qlever Solutions
Единая аналитическая система позволяет руководителям KASSIR.RU за несколько минут получать информацию о результатах продаж, оценивать динамику и прогнозировать спрос
Автоматизация операционной отчетности и DWH, которое помогает объединить 15 ТБ данных из ERP и кассовых систем для 400 магазинов
DWH позволило снизить нагрузку на операционные системы компании и повысить производительность аналитических запросов
Как Qlever Solutions с помощью DWH и BI-аналитики помогли бренду Orby на 80% снизить количество ошибок при планировании отгрузок на маркетплейсы
Дашборды помогают отслеживать показатели заказов, планировать отгрузки продукции на склады, проводить ABC-XYZ анализ товаров
Архитектура DWH
Архитектура DWH описывает, как устроено хранилище: какие уровни в нем есть, как данные движутся от источников к потребителям, и какие сервисы обеспечивают эти процессы.
Трехуровневая модель DWH
Концептуально DWH представляет собой трехуровневую структуру:
- Нижний уровень (Bottom tier) — источники и инструменты интеграции. Здесь данные извлекаются из CRM, ERP, операционных БД, файлов и API
- Средний уровень (Middle tier) — сервер хранилища, в котором данные приводятся к единой структуре и подготавливаются для анализа
- Верхний уровень (Top tier) содержит потребители данных: BI, инструменты визуализации и отчетности, ML и AI, OLAP-кубы
Это базовая схема, которая показывает, как данные проходят путь от источников до бизнес-решений.
Для практической реализации ее детализируют — чаще всего через слоеную архитектуру LSA.
Layered Scalable Architecture (LSA) - принцип слоеного пирога
Многоуровневая (слоеная) архитектура LSA – Layered Scalable Architecture — это развитие классической трехуровневой модели до конкретных слоев данных.
LSA содержит в себе:
- Стейджинг и слой первичных данных (Staging / Primary Data Layer)
На стейджинге данные временно приземляются из источников «как есть», в Primary Data Layer сохраняются уже с историей изменений. Структура повторяет источник — без преобразований.
- Операционный слой (ODS, Operational Data Store)
Опциональный слой между источниками и ядром. Содержит очищенные и интегрированные оперативные данные. Используется, когда бизнесу нужна near-real-time отчетность по операционным процессам.
- Ядро хранилища (Core Data Layer)
Центральный слой DWH, в котором данные приводятся к единой системе ключей и атрибутов, обогащаются и сохраняются с историей. Здесь обеспечивается целостность, полнота и качество данных. Основной подслой — DDS (Detail Data Store) с максимально детализированными данными в единой модели.
- Слой витрин данных (Data Mart Layer)
Витрины данных - структурированные наборы данных, собранные под конкретные задачи бизнеса и подразделения. Именно этот слой используется для аналитики в BI.
- Сервисный слой (Service Layer)
Обеспечивает управление всеми уровнями хранилища. Включает оркестрацию, мониторинг, алертинг, логирование, сквозной аудит данных (data lineage) и каталог данных (data catalog).
Главный принцип LSA: каждый слой получает данные только из соседнего нижнего и может быть полностью пересобран из него без обращения к источникам. Это дает хранилищу устойчивость к изменениям и возможность масштабирования.
DWH в общей инфраструктуре данных - подход a16z
Архитектура DWH не существует в вакууме — хранилище встраивается в более широкую инфраструктуру работы с данными компании. Концепция Unified Data Infrastructure, предложенная фондом a16z, описывает эту инфраструктуру как единую платформу, в которой DWH играет роль слоя хранения (Storage) — единой версии правды для всех потребителей данных.
Подход рассматривает данные как стратегический актив: они перестают быть побочным результатом операций и становятся основой для принятия решений. Конкретные технологии для каждого слоя инфраструктуры подбираются под задачи компании.
Подробнее о подходе Unified Data Infrastructure →
Подходы к проектированию DWH
Подход к проектированию определяет, как именно смоделированы данные внутри хранилища. Выбор подхода к проектированию — это не только техническое, но бизнес-решение: от него зависят сроки реализации и стоимость дальнейшего развития DWH.
Хранилище по Кимбаллу – витрины под задачи бизнеса
DWH строится «снизу вверх»: сначала проектируются витрины данных под отдельные бизнес-направления (продажи, маркетинг, финансы), которые затем объединяются через общие измерения (conformed dimensions) в единое хранилище. В основе — денормализованные модели «Звезда» (star) и «Снежинка» (snowflake).
Когда подходит: нужно быстро получить результат по конкретным направлениям аналитики, бизнес готов идти итеративно
Централизованное хранилище по Инмону
Подход «сверху вниз»: сначала создаётся централизованное нормализованное хранилище на уровне всего предприятия (Enterprise Data Warehouse, EDW) в третьей нормальной форме (3NF), а уже из него формируются витрины под задачи подразделений.
Когда подходит: крупная компания с большим количеством доменов и высокими требованиями к согласованности данных, готовая инвестировать в долгий старт ради простой эволюции в будущем.
Data Vault
Гибридный подход, сочетающий нормализацию по Инмону с гибкостью к изменениям источников. Современный стандарт — Data Vault 2.0 — это не только модель данных, но и методология (хеш-ключи, бизнес-правила, вынесенные на уровень витрин, и встроенная аудируемость).
Модель строится вокруг трех сущностей:
- Hub — бизнес-объекты (клиенты, заказы)
- Link — связи между объектами (например, факт оформления заказа клиентом)
- Satellite — атрибуты и история изменений
Когда подходит: Много источников, схемы которых регулярно меняются; высокие требования к историчности и аудируемости (банки, телеком, госсектор).
Подробнее о проектировании DWH →
Сравнение подходов
Основные компоненты стека DWH
DWH как централизованная система состоит из программных компонентов, каждый из которых отвечает за процессы обработки данных: загрузку из источников, трансформацию, хранение, подготовку к аналитике и т. д.
Обычно DWH строится на open-source стеке, так как такие инструменты дают необходимую для сложной аналитической системы гибкость, масштабируемость и сокращение затрат.
ETL и ELT: как данные попадают в хранилище
Данные не появляются в DWH сами по себе — за наполнение корпоративного хранилища отвечают ETL и ELT-процессы. Они позволяют автоматизировать поток данных и исключить их ручной сбор и обработку.
ETL (Extract → Transform → Load)
При таком подходе данные сначала извлекаются, затем трансформируются и только после этого загружаются в хранилище. Подход характерен для классических DWH, где важно контролировать качество данных до загрузки.
ELT (Extract → Load → Transform)
Данные сначала загружаются в хранилище, а затем обрабатываются внутри него. Подход используется в облачных платформах и хранилищах Data Lake, где есть мощные вычислительные ресурсы.
Выбор подхода и инструментов ETL и ELT зависит от требований проекта, объема данных, сложности трансформаций и доступных ресурсов.
Подробнее об ETL/ELT-процессах →
Чем DWH отличается от базы данных
От обычной базы данных корпоративное хранилище отличается следующими критериями:
- Типы хранимых данных
Обычные базы хранят данные строго для определенных подсистем, DWH - данные, преобразованные для разных задач бизнеса.
- Объемы данных
Стандартная БД содержит ограниченный объем данных, необходимые в данный момент для функционирования системы. КХД сохраняет как текущие, так и исторические данные в агрегированном виде.
- Место в рабочих процессах
Информация обычно сразу попадает в рабочие базы данных, а уже оттуда выборочно в DWH. DWH отражает состояние других баз данных и процессов в компании уже после того, как вносятся изменения в рабочих базах.
Чем DWH отличается от Data Lake
Data Lake (озеро данных) — это хранилище, куда в исходном виде поступают разные типы данных: структурированные, полуструктурированные и неструктурированные (например, тексты, изображения, логи, данные датчиков).
В отличие от DWH, данные в Data Lake не приводятся к единой структуре сразу, а сохраняются «как есть», что позволяет использовать их не только для BI-аналитики, но и для задач машинного обучения, AI и работы с Big Data.
Эволюция архитектуры данных. Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями →
Как внедряется корпоративное хранилище данных
Типовой проект внедрения DWH проходит следующие этапы:
Предпроектное обследование
- Сбор бизнес-требований к DWH и будущей отчетности
- Анализ существующих источников данных и текущих отчетов
- Выявление проблем аналитики и узких мест в работе с данными
- Определение ключевых пользователей и их потребностей
- Формирование целей создания аналитической системы
Развертывание и подготовка инфраструктуры
- Развертывание СУБД для хранилища данных
- Настройка инструментов интеграции и обработки данных (ETL / ELT)
- Установка и конфигурация сервера BI-платформы
Проектирование архитектуры
- Разработка архитектуры системы и принципов построения
- Определение компонентов аналитической платформы
- Проектирование семантической модели данных - модели бизнес-данных на логическом и физическом уровнях
- Формализация бизнес-сущностей и их взаимосвязей
- Описание правил трансформации и хранения данных
Построение DWH и разработка витрин данных для BI
- Подключение и интеграция источников данных
- Загрузка сырых данных в хранилище
- Создание детализированных слоев данных с очисткой и нормализацией
- Настройка историчности данных
- Формирование витрин данных для аналитики
- Проверка корректности загрузки данных и их соответствия бизнес-требованиям
Подключение BI-инструментов и отчетности
- Подключение BI к витринам данных
- Формирование аналитической модели данных
- Настройка обновления данных
- Создание ролевой модели доступа к дашбордам
- Разработка и публикация отчетов и дашбордов согласно задачам бизнеса
Тестирование и запуск в промышленную эксплуатацию
- Проверка стабильности работы хранилища данных
- Тестирование сценариев использования BI-отчетов
- Устранение выявленных замечаний
- Финальная приемка системы клиентом
- Для отдельных проектов - разработка плана аварийного восстановления DWH (DRP)
Документация и обучение пользователей
- Подготовка документации администраторов DWH и BI-системы
- Разработка пользовательских инструкций по работе с отчетами
- Проведение обучения ключевых пользователей
Частые ошибки внедрения DWH
Внедрение хранилища данных — сложный проект, и ошибки на старте могут привести к значительным затратам на следующих этапах проекта.
На практике чаще всего встречаются следующие проблемы: