Дубли в FMCG редко выглядят как катастрофа. Чаще это обычные строки: «Пятерочка», «Пятёрочка», «Пятерочка у метро», один адрес с разными сокращениями, две карточки с похожими координатами. Все вроде бы работает, пока компания не начинает считать охват, дистрибуцию, маршруты, промо и мотивацию. Дедупликация данных - это поиск, проверка и объединение дублей в мастер-данных. В FMCG чаще всего дублируются торговые точки и SKU. Торговая точка может жить под разными кодами у дистрибьюторов, а SKU (Stock Keeping Unit - учетная единица товара) может быть описан по-разному в ERP, DMS и Excel-выгрузках партнеров. Быстрый ответ: дедупликация нужна не для чистоты ради чистоты. Она нужна, чтобы компания считала один магазин как один магазин, один товар как один товар и не принимала решения на раздутой базе. Опасная ошибка - считать дедупликацию ручной уборкой. Кажется, что можно открыть таблицу, найти похожие названия и удалить лишние строки. Но в реальности у каждой карточки могут быть важные атри
Дедупликация данных в FMCG: как один магазин перестает быть тремя объектами в отчетах
16 мая16 мая
2
3 мин