Найти в Дзене
Data Lab

Проверка гипотез, когда A/B нельзя

Оглавление

Кажется стало лучше

Эта фраза, появляющаяся в результате какого-нибудь тестирования эффекта в бизнес-процессах может содержать в себе некоторую ловушку. Ловушка здесь в том, что очень часто мы путаем эффект изменения с тем, что и так происходило бы само по себе, потому что мир вокруг не стоит на месте ни на день.

Поменяли скрипт, добавили новые этап, ускорили процесс согласования, внедрили ИИ или может перестроили работу с воронкой - и через месяц цифры действительно могут выглядеть бодрее, люди начинают говорить увереннее, а руководитель уже мысленно масштабирует решение на всех. И это вполне нормально, потому что бизнес живёт быстрыми циклами и любит ощущение прогресса. Только вот вместе с вашим изменением одновременно двигаются и сезонность и рынки и праздники и конкуренты и т.п. и даже простая вещь вроде "в этом месяце у команды был провал из-за большого числа отпусков" способна создать иллюзию улучшения или, наоборот, скрыть реальный эффект.

Именно поэтому классическое до/после почти всегда врёт, хотя выглядит как строгая цифра, потому что сравнивает не ваш шаг с вашим шагом, а две разные реальности, в которых поменялось гораздо больше, чем один элемент процесса.

Почему A/B часто невозможен

В идеальной ситуации мы бы могли сделать классический и всеми любимый A/B-тест и спокойно сказать: вот контроль, вот вмешательство, а вот разница, которая статистически устойчива. Но обычно случается так, что A/B использовать не получается потому что: объём малый, риски высокие, репутационные риски, процесс так не разделить, а иногда и просто нет времени и сверху приходит простая команда от руководства - делаем все и сразу.

В этот момент обычно и рушится аналитическая дисциплина, потому что кажется, что без A/B остаётся только вера и личные ощущения, однако между лабораторией и гаданием есть рабочая зона, где живут контрольные группы из реальности - да, не идеальные, но достаточно честные, чтобы отделять ваш эффект от фонового шума.

Что такое контрольная группа и зачем она вам

Контрольная группа в бизнесе - всё же отличается от таких же групп в профессиональных исследованиях, но в любом случае без схожей группы не обойтись, так как измерение в нескольких группах как раз и дают ответ вопрос: что произошло бы без изменения, если бы внешние факторы остались теми же.

И тут появляется ключевой момент: вам не нужно доказать, что после изменения стало лучше, потому что лучше могло стать и без вас; вам нужно показать, что стало сильно лучше, чем стало бы само по себе, и вот это само по себе и есть контроль, который вы не придумываете, а находите в структуре бизнеса.

Похожий сегмент, который ещё не трогали

Обычно он лежит рядом: другой регион, похожая команда, иное направление, подразделение и т.п., в общем, где условия достаточно схожи, но вашего вмешательство там еще не было. Вы внедрили правило по обратной связи за 24 часа в одном департаменте - и оставили второй в старом режиме ещё на месяц. А может вы перестроили согласование офферов в одном отделе и пока не трогали другой. Или ускорили первичный скрининг, но финальные интервью у менеджеров остались как были, и теперь можно увидеть, где именно родилась новая задержка.

Важно здесь одно: сравнивать надо не "у нас 35 дней, у них 42", потому что эти уровни почти всегда будут несопоставимы, а динамику - что происходило до изменения в обеих группах и что стало происходить после, потому что именно траектория часто даёт более честный сигнал, чем абсолют.

Тест, который не выглядит как тест

Есть приём под названием отложенное внедрение, который особенно хорошо заходит управленцам, потому что звучит не как эксперимент, а как зрелое внедрение: сделать rollout поэтапно. Сначала одна команда, потом две, потом все.

Аналитика таким образом получает некоторый естественный подарок: те, кто ещё не перешёл на новый режим, становятся естественной контрольной группой, и вы можете спокойно сравнивать изменения без того, чтобы убеждать кого-то в необходимости тестирования.

Разница в разницах

Чтобы спастись от самообмана и объяснять на пальцах логику расчетов вам может пригодится метод разница в разницах (Difference-in-Differences, DID). Это квази метод, который пытается имитировать экспериментальный дизайн исследования, изучая влияние на экспериментальную группу по сравнению с контрольной группой в естественном эксперименте.

Этот метод не говорит "у нас выросли продажи на 10%". Вывод будет скорее звучать так: "у нас выросли продажи на 10%, а в контрольной группе выросли на 4% - значит, наш вклад примерно 6%". Это будет гораздо ближе к правде, потому что общие движения рынка, сезонности и фона вычитаются, и остаётся то, что действительно похоже на влияние вашего решения.

Формула очень проста:

DID = (Y(T,1) – Y(T,0)) – (Y(C,1) – Y(C,0))

где:

  • Y(T,1) — среднее значение результата в экспериментальной группе после вмешательства;
  • Y(T,0) — среднее значение результата в экспериментальной группе до вмешательства;
  • Y(C,1) — среднее значение результата в контрольной группе после вмешательства;
  • Y(C,0) — среднее значение результата в контрольной группе до вмешательства.

Вывод

Когда в следующий раз у вас будет получаться вывод в стиле кажется, стало лучше, то попробуйте остановиться и задать один вопрос: с чем мы сравниваем?

Не как было раньше, потому что раньше был другой мир, а как было бы без изменения, потому что именно это отделяет эффект от фона. Если ответ на этот вопрос находится - через похожий сегмент, через отложенное внедрение или аккуратное сравнение динамики - то у вас появляется контрольная группа, а вместе с ней появляется и главная роскошь в бизнесе: способность принимать решения не на вере, а на проверяемом понимании. 🧪

Я регулярно разбираю подобные темы в своём Telegram-канале Data Lab - про аналитику, визуализацию и управленческие решения на данных 📊