Найти в Дзене
Простая аналитика

Очистка данных - что критично чистить, а что можно оставить

Каждый аналитик хоть раз да чистил данные, это в том числе его работа, чтобы результат был максимально корректным. Ты открываешь excel выгрузку, видишь пропуски, странные значения, обычные опечатки, дублирование данных, хаотично проставленные статусы, и внутри поднимается желание сделать как надо - вычистить всё до блеска, привести к идеалу, чтобы таблица выглядела как учебник. В этот момент кажется, что именно так и выглядит профессионализм, потому что чистота данных будто бы равна качеству аналитики. Вот только беда, что в компании идеал почти всегда дорогой в реализации, а иногда и попросту вреден. Вредный не потому, что чистить не нужно, а потому, что перфекционизм смещает фокус. Ты начинаешь тратить недели на полировку, когда бизнесу нужен ответ, решение и понятная граница доверия к цифрам. И самое неприятное - ты можешь удалить из данных важные сигналы вместе с некорректно заполненными данными, потому что любое исправление - это вмешательство в привычный процесс заполнения данных
Оглавление

Каждый аналитик хоть раз да чистил данные, это в том числе его работа, чтобы результат был максимально корректным. Ты открываешь excel выгрузку, видишь пропуски, странные значения, обычные опечатки, дублирование данных, хаотично проставленные статусы, и внутри поднимается желание сделать как надо - вычистить всё до блеска, привести к идеалу, чтобы таблица выглядела как учебник. В этот момент кажется, что именно так и выглядит профессионализм, потому что чистота данных будто бы равна качеству аналитики.

Вот только беда, что в компании идеал почти всегда дорогой в реализации, а иногда и попросту вреден. Вредный не потому, что чистить не нужно, а потому, что перфекционизм смещает фокус. Ты начинаешь тратить недели на полировку, когда бизнесу нужен ответ, решение и понятная граница доверия к цифрам. И самое неприятное - ты можешь удалить из данных важные сигналы вместе с некорректно заполненными данными, потому что любое исправление - это вмешательство в привычный процесс заполнения данных, а значит риск исказить их.

Позиция аналитика в этом плане звучит скучно, но довольно практично: чистить надо ровно до того уровня, который достаточен для решения задачи, и при этом уметь сказать, что мы не знаем где проходит эта граница точности.

Два типа неверных данных: те, что искажают выводы, и те, что просто бесят

В данных есть ошибки, которые могут быть эстетически неприятны, но эти ошибки почти не влияют на выводы, которые можно на данных сделать. А есть ошибки, которые немного искажают любой анализ, потому что ломается смысл показателя. И если ты хочешь чистить без фанатизма, полезно держать в голове простое различие: что влияет на решение, а что влияет на красоту таблицы.

Например, если у тебя в столбце “город” встречаются “СПб”, “Санкт-Петербург”, “Питер”, это раздражает, но часто исправляется на уровне справочника и не всегда критично для ключевых выводов, если город вообще не является главным разрезом. А вот если у тебя непоследовательно определены “дата начала” и “дата окончания” процесса (даты окончания раньше начала процесса к примеру), или перепутаны статусы, от которых зависит расчёт time-to-fill, то это уже не косметика. Это ошибка, которая напрямую влияет на расчет ключевого показателя. И аналитика на таких ошибочных данных уже становится некой лотереей - может практически не повлияет, а может и 5-10% точности снизит.

Что критично чистить в первую очередь

Первыми чистятся не все ошибки без разбора, а именно то, которые влияют на определение метрики и на сравнимость. Критично чистить то, что меняет смысл измерения, потому что именно это приводит к неправильным управленческим решениям.

К таким вещам почти всегда относятся дубликаты событий и записей, которые создают ложные объёмы и ложные длительности процессов. В HR это может выглядеть так: одно и то же действие могло попасть в систему несколько раз, вакансию могли переоткрыть, кандидата могли перенести между этапами так, что у него появилось несколько дат выхода на работу. Если это не нормализовывать, то воронка будет уже не про отражение процесса найма, а про артефакты системы.

Туда же относятся невозможные значения и нарушения логики времени. Отрицательная длительность, дата выхода раньше случалась чем дата оффера, возраст 2 года, зарплата 0 для активной позиции. Важно не удалять выбросы потому что страшно, а понять: это реальность, которую нужно отдельно трактовать, или это ошибка на этапе ввода данных / выгрузки результатов. Но пропускать такие вещи нельзя, потому что они ломают распределения и делают среднее еще более бессмысленным.

И наконец, критично чистить базовые справочники, если они являются ключевыми разрезами решения. Если ты собираешься принимать решение по подразделениям, то в этом самом подразделении должны быть уникальные ключи. Если решение про роли, то роль должна быть нормализована. Если решение про этапы процесса, то этапы не могут быть набором синонимов, иначе ты сравниваешь тёплое и красное.

Что можно оставить

Есть вещи, которые очень хочется исправить для порядка, но которые можно оставить, если они не меняют смысл решения и ты явно обозначаешь допущения. Например, неидеальные текстовые поля, которые не участвуют в метриках. Комментарии, которые заполнены как попало. Разрозненные форматы, если ты всё равно агрегируешь данные на уровень, где формат не влияет. Частичные пропуски в полях, которые не используются в анализе, или используются лишь как дополнительный контекст, а не как основание для решения.

Можно оставить и часть редких аномалий, если ты понимаешь их долю и влияние.

Есть и ещё одна категория, которую часто недооценивают: неполнота данных. Иногда данные неполные не потому, что кто-то ошибся, а потому, что процесс устроен так, что поле заполняется не всегда. И в этом случае просто почистить невозможно, можно только ограничить анализ областью, где измерение более правильное, и отдельно вынести задачу по улучшению собираемости. Корректное ограничение выборки почти всегда лучше, чем притворство полноты.

Фанатизм чаще всего проявляется в одном месте

Самая типичная ошибка - пытаться очистить данные без понимания, какое решение будет принято. Тогда чистка превращается в бесконечный проект: можно улучшать справочники, склеивать синонимы, дополнять пропуски внешними источниками, строить идеальные правила. Это всё полезно, но не всегда требуется делать прямо сейчас.

Нормальная управленческая логика немного другая. Сначала ты определяешь, что именно ты измеряешь и ради какого решения. Потом ты чистишь только то, что влияет на эту метрику и на сопоставимость этой метрики. Затем ты фиксируешь границы доверия и показываешь их. И вот только после этого ты можешь вернуться за красотой, если бизнесу это действительно нужно и если есть ресурс на такие сверки.

Вывод 🎯

Очистка данных нужна, но фанатизм в ней обычно появляется там, где аналитик пытается добиться идеала вместо того, чтобы добиться управляемости в данных. Критично чистить то, что меняет смысл метрики и сравнимость, потому что именно это влияет на решения. Всё остальное можно оставлять, если ты умеешь обозначить границы доверия и не продавать таблицу как “истину”.

В конечном счёте хорошая чистка данных - это не про то, чтобы сделать красиво. Это про то, чтобы сделать данные полезнее и достаточными.

Я регулярно разбираю такие темы в своём Telegram-канале, если вам интересно глубже понимать аналитику и работать с данными, там регулярно выходят короткие заметки и практические примеры.