Хранилище данных (DWH – Data Warehouse) — это система управления данными, предназначенный для Бизнес-аналитики (BI). Хранилища данных предназначены исключительно для выполнения запросов и часто содержат большие объемы исторических данных. Данные в хранилище данных обычно поступают из широкого круга источников, таких как логи приложений и приложения для данные учетных систем.
Хранилище данных централизует и объединяет большие объемы данных из нескольких источников. Его аналитические возможности позволяют организациям извлекать ценную информацию из своих данных для улучшения процесса принятия решений. Со временем он создает историческую запись, которая может оказаться бесценной для специалистов по обработке и анализу данных и бизнес-аналитиков. Благодаря этим возможностям хранилище данных можно считать «единым источником достоверной информации» организации.
Типичное хранилище данных часто включает следующие элементы:
- Реляционная база данных
- Решение для Извлечения, преобразования и загрузки (ETL) данных
- Инструменты статистического анализа
- Инструменты визуализации данных
- Другие, более сложные аналитические приложения, которые генерируют полезную информацию, применяя алгоритмы Науки о данных (DS) и Искусственного интеллекта (AI)
К популярным хранилищам можно отнести:
- Amazon Redshift
- Snowflake
- Google Cloud BigQuery
- Vertica
- Greenplum
Стоит отличать DWH от так называемого Озера данных (Data Lake). Хранилище данных содержит очищенные, обработанные и структурированные данные, готовые к анализу на основе предопределенных потребностей бизнеса. Во втором содержатся все данные организации в необработанном, неструктурированном виде и храниться они могут неограниченно долго.