76 подписчиков
Чем занимается DWH аналитик (часть 2)
1. Поиск и определение источников данных
2. Описание требований для сбора, преобразования данных
Сегодня расскажу про еще 2 задачи ⤵️
1️⃣ Моделирование структуры данных в хранилище
Хранилища данных имеют обычно несколько слоев хранения. Если обобщить, то можно выделить 3 слоя:
- слой сырых данных (поступают почти без изменений из источника данных)
- слой очищенных, предподготовленных данных (это основной, core слой хранения, где все таблицы с данными приведены к нужному согласно требованиям виду и эти данные могут быть переиспользованы для разных задач аналитики)
- слой витрин данных (это собранные из разных таблиц данные в одной или нескольких широких таблицах, часто уже включающие агрегацию, частичный расчет метрик). О витринах поговорим еще в следующем пункте
Каждый слой хранения должен быть правильно смоделирован, описан, чтобы каждый пользователь хранилища понимал где и какие данные он может найти. Также важно описывать правила, какие преобразования данных на каждом слое могут быть доступны: делупликация, обогащения, преобразование типов данных, агрегация и т.д.
2️⃣ Подготовка витрин данных для разных бизнес-задач
Витрина данных включает в себя всю необходимую для анализа и решения конкретной бизнес-задачи информацию. Например, в одной таблице и у нас есть данные о клиентах, во второй - продукты компании, в третьей - покупки клиентов продуктов компании, т.е. некие транзакции. Витрина данных может объединить всю эту информацию в одной таблице, какую транзакции какой клиент совершил и какой продукт приобрел.
Витрины чаще всего собираются с помощью SQL-запросов.
😃 Честно, это моя самая любимая часть работы, поэтому люблю эту тему подробно раскрывать в курсе «Основы анализа данных»
Какие hard-навыки необходимы DWH аналитикам:
1. SQL (без него вообще никак, даже пытаться не стоит)
2. Умение моделировать ER-диаграммы, знание связей между таблицами
3. Знание концепций хранилищ данных, знание схем звезда и снежинка
4. Сбор требований, описание документации для потоков данных. Сюда можно включить Data flow диаграммы, S2T, словари данных
Все эти навыки мы проходим на курсе Data Study
Ставьте реакции 🔥 если хотите узнать подробней про каждый из навыков
1 минута
24 июля 2023
358 читали