Добавить в корзинуПозвонить
Найти в Дзене
FMCG-продажи без мифов

Дедупликация данных в FMCG: как один магазин перестает быть тремя объектами в отчетах

Дубли в FMCG редко выглядят как катастрофа. Чаще это обычные строки: «Пятерочка», «Пятёрочка», «Пятерочка у метро», один адрес с разными сокращениями, две карточки с похожими координатами. Все вроде бы работает, пока компания не начинает считать охват, дистрибуцию, маршруты, промо и мотивацию. Дедупликация данных - это поиск, проверка и объединение дублей в мастер-данных. В FMCG чаще всего дублируются торговые точки и SKU. Торговая точка может жить под разными кодами у дистрибьюторов, а SKU (Stock Keeping Unit - учетная единица товара) может быть описан по-разному в ERP, DMS и Excel-выгрузках партнеров. Быстрый ответ: дедупликация нужна не для чистоты ради чистоты. Она нужна, чтобы компания считала один магазин как один магазин, один товар как один товар и не принимала решения на раздутой базе. Опасная ошибка - считать дедупликацию ручной уборкой. Кажется, что можно открыть таблицу, найти похожие названия и удалить лишние строки. Но в реальности у каждой карточки могут быть важные атри
Оглавление

Дубли в FMCG редко выглядят как катастрофа. Чаще это обычные строки: «Пятерочка», «Пятёрочка», «Пятерочка у метро», один адрес с разными сокращениями, две карточки с похожими координатами. Все вроде бы работает, пока компания не начинает считать охват, дистрибуцию, маршруты, промо и мотивацию.

Дедупликация данных - это поиск, проверка и объединение дублей в мастер-данных. В FMCG чаще всего дублируются торговые точки и SKU. Торговая точка может жить под разными кодами у дистрибьюторов, а SKU (Stock Keeping Unit - учетная единица товара) может быть описан по-разному в ERP, DMS и Excel-выгрузках партнеров.

Быстрый ответ: дедупликация нужна не для чистоты ради чистоты. Она нужна, чтобы компания считала один магазин как один магазин, один товар как один товар и не принимала решения на раздутой базе.

Почему удалить лишнее недостаточно

Опасная ошибка - считать дедупликацию ручной уборкой. Кажется, что можно открыть таблицу, найти похожие названия и удалить лишние строки. Но в реальности у каждой карточки могут быть важные атрибуты: координаты, статус, привязка к маршруту, код дистрибьютора, история заказов, канал, формат, сеть.

Если просто удалить запись, можно потерять данные. Если объединить автоматически без проверки, можно склеить разные объекты. Поэтому дедупликация должна быть процессом, а не разовой Excel-операцией.

Как работает нормальная дедупликация

Первый шаг - нормализация. Нормализация означает приведение данных к единому формату: адреса очищаются, названия выравниваются, лишние символы убираются, классификаторы приводятся к общей логике, обязательные поля проверяются.

Без нормализации система сравнивает шум. «ул. Ленина, 10», «Ленина 10» и «Ленина, дом 10» могут быть одной точкой, но для алгоритма без подготовки это разные строки.

Дальше включаются правила сопоставления:

· детерминированные правила, когда есть сильные признаки, например GTIN по товару, ИНН и адрес, одинаковые координаты и название;

· fuzzy matching, то есть нечеткое сопоставление, когда записи похожи, но не совпадают полностью;

· entity resolution, то есть определение, какие записи на самом деле относятся к одной сущности.

Система не должна объединять все подряд. Она должна находить кандидатов в дубли, оценивать вероятность совпадения и передавать спорные случаи на модерацию.

Роль Data Steward в дедупликации

Data Steward - это операционный хранитель данных. Он ежедневно ведет справочники, проверяет заявки, разбирает спорные карточки и отвечает за качество данных на практике.

В сильном процессе Data Steward не ищет все с нуля. Система показывает группы похожих записей, вероятность совпадения, проблемные поля и историю изменений. Человек подтверждает или отклоняет объединение там, где риск ошибки высок.

Именно в этой связке алгоритма и модерации появляется управляемая дедупликация.

Что такое golden record

Golden record - это эталонная карточка объекта, собранная из нескольких источников и признанная основной. Например, у одной торговой точки может быть название из SFA, координаты из поля, код дистрибьютора из DMS, статус из последнего подтвержденного визита и канал из единого классификатора.

Golden record становится карточкой, которой доверяют ERP, DMS, SFA, BI и другие системы. Это не просто красивая запись. Это основа для отчетности, маршрутов, дистрибуции и повторяемых управленческих решений.

Дедупликация становится особенно важной там, где много дистрибьюторов, регионов, локальных кодов и ручных загрузок. Чем больше источников, тем выше риск, что один и тот же рынок разъедется на несколько цифровых копий.

Подробнее о дедупликации, Data Quality и golden record в FMCG.

Для управления дублями, качеством данных и эталонными карточками релевантен ARK Space MDM.

Какие дубли у вас самые болезненные: торговые точки, SKU или дистрибьюторские коды?