Найти тему
Кирилл Поляков

Статистическая значимость при A/B тестировании.

Что такое статистическая значимость?

Чтобы правильно объяснить, что такое статистическая значимость, необходимо сделать небольшой шаг назад. Наши цели всегда связаны с улучшением важных для нас бизнес-метрик. Мы стремимся получить больше посетителей, повысить конверсию посетителя в покупателя, увеличить retention и снизить churn, увеличить количество повторных заказов и многое-многое другое. Однако мы не можем полагаться только на свои знания, чтобы определить какое из действий приведет к улучшению. Именно тут вступает в силе a/b тестирование, поскольку он является единственным научным способом установить причинно-следственную связь между нашими действиями и результатами, которые мы наблюдаем.

В реальном мире онлайн-бизнеса есть ограничения, с которыми нам нужно работать. В A/B тестировании мы ограничены во времени, в ресурсах и в пользователях, на которых мы будем проводить наш эксперимент. Таким образом мы наблюдаем эксперимент на некоторой выборке и используем полученные знания, чтобы предсказать, как посетители будут вести себя в будущем. В любом таком измерении, при котором мы пытаемся построить прогноз о будущем неизбежна неопределенность как в нашем измерении, так и в нашем предсказании.

Эта неопределенность обусловлена естественной дисперсией [отклонением] поведения групп, которое мы наблюдаем. Если мы разделим наших пользователей на две случайные группы, то мы будем наблюдать различия в поведении этих двух групп, в том числе и по нашим KPI, даже не делая ничего различного для этих групп. Для того чтобы получить представление об этом можно провести A/A тесты и понаблюдать за результатами.

Для того чтобы иметь надежный прогноз необходимо использовать понятие статистической значимости. Он является инструментом для измерения уровня неопределенности наших данных.

Статистическая значимость необходима для количественного определения неопределенности.

Для начала необходимо выбрать переменную, по которой будем измерять результаты. Например, в качестве переменной можно выбрать коэффициент конверсии в покупку. Обозначим за µ. Затем мы определяем две статистические гипотезы, охватывающие все возможные значения для µ. Обычно одна гипотеза определяется, как имеющая отрицательный эффект µ<=0. Альтернативная гипотеза заключается в том, что изменение несет положительный эффект µ > 0.

Статистическая значимость тогда является косвенной мерой вероятности совершения ошибки решения о том, что нулевая гипотеза должна быть отвергнута, когда на самом деле нам следовало воздержаться от ее отклонения.

Что это значит, если результат статистически значимый*?

*на заданном уровне

Предположим, что нулевая гипотеза об отсутствии улучшения. Тогда может быть три сценария развития:

1) Существует истинное улучшение

2) Улучшений нет, но есть случайные результаты. Чем выше уровень статистической значимости, тем реже случайный результат. Например, 95% статистическая значимость будет наблюдаться “случайное” улучшение 1 из 20 раз

3) Статистическая модель недействительна (не отражает реальность).

Как провести A/B тестирование, на результаты которого можно полагать?

До проведения теста:

1. Задаем уровень статистической значимости. Чем ниже выбранный вами уровень значимости, тем ниже риск того, что вы обнаружите разницу, вызванную случайностью.

2. Определяем минимальный размер выборки. Можно воспользоваться калькулятором.

После проведения теста – анализируем результаты и проверяем статистическую значимость:

1. Если p-value меньше уровня значимости, то можно отвергнуть нулевую гипотезу, имея доказательства для альтернативы.

2. Если p-value больше или равно уровню значимости, мы не можем отвергнуть нулевую гипотезу.

Для вычисления p-value можно воспользоваться готовым калькулятором