Добавить в корзинуПозвонить
Найти в Дзене
FMCG-продажи без мифов

Качество данных для DWH и BI: почему «не сходится» и как исправить без героизма

Любая аналитика ломается на одном принципе: Garbage in — garbage out (мусор на входе → мусор на выходе). Поэтому DWH и BI всегда упираются в качество данных и мастер‑данные. Термины:
Data Quality (качество данных) — правила, которые проверяют данные на ошибки и аномалии. MDM (Master Data Management) — управление мастер‑данными: единые справочники (SKU, клиенты, точки).
Дедупликация — поиск и объединение дублей (одна точка записана 3 способами).
Мэппинг — сопоставление локальных кодов (дистрибьютора) с глобальными (производителя).
Сходимость — когда одно и то же число сходится в разных отчётах при одинаковых правилах. 1) Один SKU в разных системах имеет разные коды/названия.
2) Дубли торговых точек: отчёты завышают охват и искажают продажи.
3) Смешаны периоды: у одного “неделя”, у другого “период 7 дней со сдвигом”.
4) Возвраты и корректировки приходят позже и меняют историю.
5) Нереальные значения: продажи отрицательные, остатки “в минус”, скачки x10 без причины.
6) Нет свя
Оглавление

Любая аналитика ломается на одном принципе: Garbage in — garbage out (мусор на входе → мусор на выходе). Поэтому DWH и BI всегда упираются в качество данных и мастер‑данные.

Термины:
Data Quality (качество данных) — правила, которые проверяют данные на ошибки и аномалии. MDM (Master Data Management) — управление мастер‑данными: единые справочники (SKU, клиенты, точки).
Дедупликация — поиск и объединение дублей (одна точка записана 3 способами).
Мэппинг — сопоставление локальных кодов (дистрибьютора) с глобальными (производителя).
Сходимость — когда одно и то же число сходится в разных отчётах при одинаковых правилах.

6 проблем, которые “убивают” DWH/BI в FMCG

1) Один SKU в разных системах имеет разные коды/названия.
2) Дубли торговых точек: отчёты завышают охват и искажают продажи.
3) Смешаны периоды: у одного “неделя”, у другого “период 7 дней со сдвигом”.
4) Возвраты и корректировки приходят позже и меняют историю.
5) Нереальные значения: продажи отрицательные, остатки “в минус”, скачки x10 без причины.
6) Нет связи “кто кому продаёт”: не ясно, где дистрибьютор, где сеть, где точка.

Мини‑чеклист правил качества (стартовые 10)

Как быстро поднять качество данных без «перестраивать всё»

Кто должен быть владельцем данных (иначе порядок не удержится)

Назначьте владельцев как минимум для трёх сущностей: SKU, дистрибьютор, торговая точка. Владелец решает: как создаём записи, как объединяем дубли, как мэппим, кто согласует изменения. Это быстрее, чем бесконечно «чинить отчёты».

Начните с “топ‑потерь”: выберите 20 SKU и 50 ключевых точек и добейтесь идеального мэппинга и дедупликации именно там. Дальше масштабируйте правила: сперва ядро ассортимента и ключевые сети, потом длинный хвост. Такой подход быстрее даёт сходимость KPI и не блокирует аналитику на месяцы.

· обязательные поля заполнены (дата, SKU, количество, склад/регион),

· значения не отрицательные,

· нет дубликатов ключей (дата+SKU+склад),

· контроль диапазонов (продажи/остатки не “улетают” x10),

· контроль справочников (SKU и точки существуют в эталоне),

· контроль периодов (не попали в закрытый период),

· контроль мэппинга (доля немэппированных SKU ≤ порога),

· контроль возвратов (возврат не превышает продажу за период),

· контроль уникальности точки (дедупликация),

· контроль обновления (данные пришли в срок).

Почему без MDM BI всегда будет “спорным”

Если у вас нет единого эталона SKU и точек, вы можете построить идеальный DWH — но всё равно будете спорить о цифрах. MDM — это не “база справочников”, а механизм дисциплины: кто владелец, как меняем, как мэппим, как контролируем.

Лонгрид про DWH/ETL/OLAP/BI: "Управление данными в компании: DWH, ETL, OLAP и BI без магии и маркетинга".

Продукт ARK для MDM и Data Quality (единые справочники, дедупликация, контроль качества загрузок).