Найти в Дзене
Простая аналитика

Подготовка данных: почему 70% времени уходит не на анализ и это нормально

Почти каждый аналитик переживает в начале в начале своей карьеры следующую ситуацию. Ты получаешь задачу, открываешь выгрузку, видишь тысячи строк и заранее представляешь, как быстро найдёшь закономерности, построишь пару графиков, сделаешь выводы и закроешь вопрос. Проходит день, проходит второй, а ты всё ещё не анализируешь. Ты приводишь даты к одному формату, разбираешься со статусами, ловишь дубликаты, ищешь странные пропуски, пытаешься понять, почему одно и то же событие в системе записывается пятью разными словами, и откуда вообще взялись значения, которые физически не могут быть правдой. В этот момент легко подумать, что ты занимаешься чем-то второстепенным, будто бы настоящая аналитика должна начинаться там, где начинаются графики и модели, но подготовка данных - это не разогрев перед работой. Это огромная часть работы аналитика. Данные в компаниях почти никогда не рождаются сугубо для целей аналитики. Такого не бывает, данные это вообще просто побочный продукт каких-то действи
Оглавление

Почти каждый аналитик переживает в начале в начале своей карьеры следующую ситуацию. Ты получаешь задачу, открываешь выгрузку, видишь тысячи строк и заранее представляешь, как быстро найдёшь закономерности, построишь пару графиков, сделаешь выводы и закроешь вопрос. Проходит день, проходит второй, а ты всё ещё не анализируешь. Ты приводишь даты к одному формату, разбираешься со статусами, ловишь дубликаты, ищешь странные пропуски, пытаешься понять, почему одно и то же событие в системе записывается пятью разными словами, и откуда вообще взялись значения, которые физически не могут быть правдой.

В этот момент легко подумать, что ты занимаешься чем-то второстепенным, будто бы настоящая аналитика должна начинаться там, где начинаются графики и модели, но подготовка данных - это не разогрев перед работой. Это огромная часть работы аналитика.

Данные почти всегда грязные - и это нормально 🧩

Данные в компаниях почти никогда не рождаются сугубо для целей аналитики. Такого не бывает, данные это вообще просто побочный продукт каких-то действий. Рекрутер закрывает вакансию, менеджер проводит интервью, HRBP меняет статус и т.п. Никто в этот момент не думает, как удобно будет потом измерять процесс, кто и как будет работать с данными, и это нормально.

Проблема начинается тогда, когда мы делаем вид, что этот побочный продукт уже готов к управленческим выводам. Сырые данные всегда несут в себе реальную жизнь: разное заполнение данных от пользователей, смены процессов, когда ретро данные не изменяются, какие-то ручные правки и иные хвосты. Если ты это не учитываешь, ты легко построишь идеальный график, который будет идеально неправильным.

Подготовка данных - это про договориться о смысле 🧠

Самое важное в подготовке данных - то, что она не выглядит как аналитика, хотя по сути ей и является. На деле же это постоянные решения о смысле: что мы будем считать началом процесса, а что его окончанием, какие статусы нам нужно объединять и для чего, какие случаи исключать, чтобы не сравнивать теплое и красное.

В момент подготовки данных аналитик и задает эти вопрос: что именно он считает реальностью, которую будет измерять.

Перфекционизм вреден✅

Еще бывает, что аналитик стремится почистить все данные до идеала. Удалить все пропуски, исправить все опечатки, выровнять справочники, короче привести таблицу к тому формату, который обычно на курсах предоставляют. В реальной компании идеал почти всегда либо недостижим либо слишком дорог в достижении.

Поэтому лучшая тактика, которую можно здесь избрать - это выбрать достаточный уровень качества, который вам будет приемлем. Задавайтесь вопросом: а достаточно ли такого качества данных, чтобы принять решение. Иногда честнее сказать: мы считаем показатель по таким-то типам случаев, потому что там заполнены ключевые поля, а остальное пока недостоверно, и это отдельная задача - улучшить собираемость данных.

Что меняется, если подготовку сделать правильно 🔧

Представьте, что бизнес говорит: В ИТ отделе вакансии закрываются слишком долго. Без подготовки данных аналитик покажет среднее и подтвердит ощущение: у ИТ 52 дня, у рабочих 28. И дальше начнутся объяснения про рынок, сложность профиля и “так получилось”.

А после подготовки, когда ты приводишь статусы, одинаково определяешь старт и финиш и раскладываешь time-to-fill на этапы, часто выясняется другая история. Например, поиск сопоставим, но в ИТ дольше ждут фидбек после интервью и дольше согласуют оффер из-за дополнительного раунда согласования. И тогда вывод становится более управленческим: задержка живёт в процессе, там есть рычаг, и его можно сдвигать через SLA на обратную связь, заранее согласованную вилку, шаблоны оффера, календарные слоты.

Простая проверка 🧾

Мне нравится проверка, которая помогает не утонуть в вечной чистке этих чаще всего не качественных данных. Данные готовы не тогда, когда они чистые, а когда тебе достаточно информации для ответа на вопрос руководителя о том, как ты считал:

  • почему ты исключил часть случаев;
  • почему выбрал именно такую дату начала процесса;
  • а вообще, сравнимо ли это между подразделениями, если да, то почему.

Когда ответы есть, анализ становится устойчивым к реальному разговору, а не только красивым в презентации.

Вывод 🎯

Подготовка данных - это не этап до анализа. Это тот момент, когда ты превращаешь исходные части процессов в измерение, на которое можно опереться, чтобы принять то или иное решение и конечно же проверить эффект. Обычно подготовка данных занимает бОльшую часть времени и это нормально.

Я регулярно разбираю такие темы в своём Telegram-канале, если вам интересно глубже понимать аналитику и работать с данными, там регулярно выходят короткие заметки и практические примеры.