36 подписчиков
Витрина данных – это один из срезов хранилища данных, являющийся массивом тематической информации, направленной на удовлетворение запросов одного отдела/департамента/службы и др. Иными словами, витрина – это пул тематических сведений, которые относятся к одному направлению работы компании...
3 года назад
64 подписчика
Чем занимается DWH аналитик (часть 2)

В предыдущем посте про DWH аналитика я расписал 2 задачи, которые выполняют такие специалисты:
1. Поиск и определение источников данных
2. Описание требований для сбора, преобразования данных

Сегодня расскажу про еще 2 задачи ⤵️

1️⃣ Моделирование структуры данных в хранилище

Хранилища данных имеют обычно несколько слоев хранения. Если обобщить, то можно выделить 3 слоя:
- слой сырых данных (поступают почти без изменений из источника данных)
- слой очищенных, предподготовленных данных (это основной, core слой хранения, где все таблицы с данными приведены к нужному согласно требованиям виду и эти данные могут быть переиспользованы для разных задач аналитики)
- слой витрин данных (это собранные из разных таблиц данные в одной или нескольких широких таблицах, часто уже включающие агрегацию, частичный расчет метрик). О витринах поговорим еще в следующем пункте

Каждый слой хранения должен быть правильно смоделирован, описан, чтобы каждый пользователь хранилища понимал где и какие данные он может найти. Также важно описывать правила, какие преобразования данных на каждом слое могут быть доступны: делупликация, обогащения, преобразование типов данных, агрегация и т.д.

2️⃣ Подготовка витрин данных для разных бизнес-задач

Витрина данных включает в себя всю необходимую для анализа и решения конкретной бизнес-задачи информацию. Например, в одной таблице и у нас есть данные о клиентах, во второй - продукты компании, в третьей - покупки клиентов продуктов компании, т.е. некие транзакции. Витрина данных может объединить всю эту информацию в одной таблице, какую транзакции какой клиент совершил и какой продукт приобрел.
Витрины чаще всего собираются с помощью SQL-запросов.
😃 Честно, это моя самая любимая часть работы, поэтому люблю эту тему подробно раскрывать в курсе «Основы анализа данных»

Какие hard-навыки необходимы DWH аналитикам:

1. SQL (без него вообще никак, даже пытаться не стоит)
2. Умение моделировать ER-диаграммы, знание связей между таблицами
3. Знание концепций хранилищ данных, знание схем звезда и снежинка
4. Сбор требований, описание документации для потоков данных. Сюда можно включить Data flow диаграммы, S2T, словари данных

Все эти навыки мы проходим на курсе Data Study

Ставьте реакции 🔥 если хотите узнать подробней про каждый из навыков
12 месяцев назад