Найти в Дзене
Data Lab

Разбор визуализации Box plot

Есть привычка смотреть на данные через одну цифру. Выбор может упасть на среднюю или медиану или на иную метрику. И рассуждения обычно такие, что мол и этого достаточно, чтобы понять, что происходит. Но как правило, к сожалению этого не достаточно, ведь реальность устроена совсем иначе. В процессе нет одной цифры, которая бы отразила его целиком и полностью, так мы подбираемся к распределению. Именно оно отвечает на главный вопрос любого процесса - он стабилен или он держится на удаче. Скажу сразу: среднее - это отличная метрика, которая может дать представление в целом о предмете изучения. Проблема среднего в том, что оно просто слишком удобно: его очень просто положить в отчет и легко защитить на встрече. Одна цифра, одна мысль и все довольны. Проблема здесь в другом: среднее часто делает процесс ровным на бумаге, даже если в жизни он рваный. И вот как раз в рваных процессах люди обычно и живут - сроки плавают, нагрузка скачет, а потом внезапно появляются те самые вопросы почему опят
Оглавление

Есть привычка смотреть на данные через одну цифру. Выбор может упасть на среднюю или медиану или на иную метрику. И рассуждения обычно такие, что мол и этого достаточно, чтобы понять, что происходит.

Но как правило, к сожалению этого не достаточно, ведь реальность устроена совсем иначе. В процессе нет одной цифры, которая бы отразила его целиком и полностью, так мы подбираемся к распределению. Именно оно отвечает на главный вопрос любого процесса - он стабилен или он держится на удаче.

Почему box plot вообще нужен

Скажу сразу: среднее - это отличная метрика, которая может дать представление в целом о предмете изучения. Проблема среднего в том, что оно просто слишком удобно: его очень просто положить в отчет и легко защитить на встрече. Одна цифра, одна мысль и все довольны.

Проблема здесь в другом: среднее часто делает процесс ровным на бумаге, даже если в жизни он рваный. И вот как раз в рваных процессах люди обычно и живут - сроки плавают, нагрузка скачет, а потом внезапно появляются те самые вопросы почему опять все горит 🔥

Box plot нужен, чтобы увидеть не как в среднем, а как выглядит нормальная жизнь процесса.

Как читать box plot

Если немного упростить, то у box plot есть всего три смысловых слоя.
Внутри коробки есть линия - это
медиана. Это типичный результат, то есть не самый хороший и не самый плохой, просто как обычно.

Сама коробка - это скажем так, середина мира, то есть центральные 50% значений. Именно так "живет" большинство наблюдений.

Ширина коробки тоже не для красоты, это цена непредсказуемости. Чем шире коробка, тем больше процесс зависит от контекста, людей, удачи, погоды, настроения, да чего угодно

Дальше идут усы и отдельные точки - это хвосты и выбросы. И их очень легко понять неправильно. Интуитивно хочется сказать: “О, выбросы, почистим их”.
Но чаще всего выбросы полезная
история о данных, пусть иногда и неприятная.

Выбросы не ошибка (как правило)

Представь ситуацию из найма. Ты смотришь time-to-hire (время от открытия вакансии до выхода на работу). В среднем, допустим, 32 дня. И вроде всё ок, можно даже порадоваться таким значению. Спустя месяц от открытия вакансии выходит кандидат, круто же.

А потом ты строишь box plot и видишь, что половина вакансий закрывается где-то в коридоре 25-40 дней - все действительно выглядит здорово. Но есть хвост, где вакансии живут по 90-120 дней, и таких кейсов не один-два, их гораздо больше.

И вот тут начинается здоровая аналитика: видя всё распределение полностью ты сможешь выяснить что это за выбросы, быть может они имеют одинаковую природу (исходят из одного отдела рекрутмента или из одной сложной группы профессий в сложном регионе присутствия компании).

То есть, существует стандартный режим, где система работает. ✅
А есть
проблемные сегменты, где что-то ломается, как я уже сказал выше, это может быть то, что компенсация не попадает в рынок, согласования идут неделями, нанимающий менеджер меняет требования на ходу, роль дефицитная, да что угодно.

С точки зрения бизнеса хвост почти всегда важнее, чем медиана, потому что хвост представляет собой проблемное место, где тратятся деньги, нервы и даже репутация (HR-бренд, если на примере подбора).

Почему box plot часто умнее, чем сравнение средних

-3

Есть еще один момент, который мне лично очень нравится в box plot. Он показывает не только кто лучше/хуже, а еще показывает и кто стабильнее.

Допустим, ты сравниваешь два канала найма. По среднему один выглядит чуть быстрее, допустим, на пару дней. И кажется, что можно уже принимать решение в пользу одного из каналов привлечения.

Но box plot может показать картину шире и сказать, что у быстрого канала есть огромный разброс или тяжелый хвост. То есть часть кейсов закрывается быстро, а часть улетает в вечность. Получается некоторая лотерея 🎲

А у второго канала медиана чуть хуже, но все ровнее.

И вот здесь выбор стоит между самый быстрый, и более предсказуемым. Для бизнеса, скорее всего, будет важен как раз предсказуемый канал. Потому что в реальности он редко страдает от того, что типичный срок 30 дней вместо 28. Он страдает от ситуаций, когда обещали закрыть в этом месяце, а потом прошло два, и все уже перестроили планы три раза.

Две ошибки, которые портят пользу box plot

Первая - пытаться оптимизировать только центр. Медиану хочется двигать вниз, это понятно, но иногда выгоднее сначала исправлять хвост: срезать тяжелые случаи, убрать причины вечных кейсов. И только потом уже улучшать типовой режим. То есть, оптимизация медианы без работы с хвостом часто дает красивую цифру, но оставляет ту же боль ⚠️

Вторая - воспринимать box plot как сложную статистику. На самом деле его можно переводить на простой язык буквально тремя пунктами:

  • линия - типичный результат (медиана)
  • коробка - разброс у большинства
  • точки - особые случаи, где процесс дает сбой

Если так объяснить, то как правило основной принцип работы становится понятным. И дальше же будут вопросы не какое среднее, а почему у нас такой хвост 🔎

Вывод

Box plot - это график, который отучает жить одним средним. Box plot показывает, как устроена жизнь внутри цифры: где нормальная часть процесса, где разброс, а где начинается слой, который потом превращается в пожар.

И если честно, именно так и должна работать аналитика: не украшать отчет, а снижать неопределенность. А неопределенность почти всегда живет не в среднем, она живет в разбросе и в хвостах.

Я регулярно разбираю подобные темы в своём Telegram-канале Data Lab - про аналитику, визуализацию и управленческие решения на данных 📊

#boxplot