Найти в Дзене

Как оценить то, что натворил? A/B тестинг (категориальные признаки)

В этот раз будем решать задачу оценки изменений. Сделали новый сайт, изменили технологию, провели опрос. Это все хорошо, но как оценить отличия? Достигнутые показатели - это результат нашей деятельности или воля случая и мы ошибаемся? Ответы на данные вопросы можно получить проведя A/B тест, а на все остальное есть mastercard. Задача снова взята с DataCamp. И так, некая компания провела редизайн сайта. Конечно сразу никто не решился обновить сайт целиком и безвозвратно. Поэтому все изменения вводились постепенно. Сначала одной группе показали только обновленную верстку (новые кнопки, содержание, расположение элементов). Второй группе показали новую графику. Третей группе показали все новое сразу, а четвертой показали старый дизайн. Результативность мерили количеством зарегистрированных новых пользователей. посмотрим на данные treatment - это категория показывали ли новое оформление new_images - показали новые картинки converted - зарегистрировались ли новые пользователи Как видим и

В этот раз будем решать задачу оценки изменений.

Сделали новый сайт, изменили технологию, провели опрос. Это все хорошо, но как оценить отличия? Достигнутые показатели - это результат нашей деятельности или воля случая и мы ошибаемся?

Ответы на данные вопросы можно получить проведя A/B тест, а на все остальное есть mastercard.

Задача снова взята с DataCamp.

И так, некая компания провела редизайн сайта. Конечно сразу никто не решился обновить сайт целиком и безвозвратно. Поэтому все изменения вводились постепенно. Сначала одной группе показали только обновленную верстку (новые кнопки, содержание, расположение элементов). Второй группе показали новую графику. Третей группе показали все новое сразу, а четвертой показали старый дизайн. Результативность мерили количеством зарегистрированных новых пользователей.

посмотрим на данные

Да, и это все что у нас есть. Три колонки
Да, и это все что у нас есть. Три колонки

treatment - это категория показывали ли новое оформление

new_images - показали новые картинки

converted - зарегистрировались ли новые пользователи

Пропусков нет. Это хорошо
Пропусков нет. Это хорошо
-3
-4
-5

Как видим из графиков пользователей по-честному поделили на равные группы. В результате нашего теста зарегистрировалось 4589 пользователей.

комментарии по коду для графиков ниже:

-6

Так как наши данные категориальные, то будем использовать критерий ХИ^2 Пирсона.

Критерий χ2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей). Метод был предложен в 1900 году

Карл Пирсон взято из https://bookdown.org/aquintela/EBE/variabilidad-y-correlacion.html
Карл Пирсон взято из https://bookdown.org/aquintela/EBE/variabilidad-y-correlacion.html

Сложность в этом методе только одна. Это нахождение теоретического распределения.

Для начала создадим сводную таблицу наших данных.

В итоге у нас 4 категории, которые пойдут в строки. Это показали новый дизайн, но не показали картинок, Показали новый дизайн и показали новые картинки, показали старый дизайн и показали новые картинки, показали старый дизайн и старые картинки.

В колонках будут категории - зарегистрировались или не зарегистрировались новые пользователи, В данных будет подсчет значений.

-8

И так что бы найти теоретическое значение для пользователей которые зарегистрировались, увидя новый дизайн и новые картинки необходимо значение числа таких пользователей (1151) поделить на общее число вновь зарегистрированных пользователей и получившиеся число (долю пользователей от общего количества) умножить на сумму всех пользователей увидевших новый дизайн и новые картинки (сумму по строке. 10121). Т.е. (1151/4589)*10121 = 1147,25

И такую операцию необходимо проделать для каждого значения:

код.
код.
полученные значения
полученные значения

В итоге в строках получили одинаковые значения. Мы же помним, что у нас были одинаковые по количеству группы.

-11

Осталось только подсчитать сам критерий. Считается все просто: квадрат разности ожидаемого распределения от полученного распределения деленного на ожидаемое распределение. полученные значения складываются между собой. В числителе порядок особо не важен, так как в итоге все возводится в квадрат.

-12

Дальше считаем степени свободы: (число строк - 1) (число столбцов -1) . В нашем случае число степеней свободы равно 3. Примем вероятность ошибки за 5%.

Дальше заглядываем в таблицу по критерию и ищем на пересечении критическое число.

ищем слева 3 строку и столбец с 0,05. Значение критерия 7,815
ищем слева 3 строку и столбец с 0,05. Значение критерия 7,815

так как полученное нами расчетное значение 8,526 больше критического значения 7,815, то можно с 95% вероятностью утверждать, что изменения в дизайне влекут за собой изменение числа зарегистрированных пользователей. В данном случае в большую сторону.

Подробнее про критерий можно дополнительно прочитать здесь

Как намного быстрее посчитать с использованием библиотеки scipy, а так же много разного по аналитике и не только....можно прочитать здесь

#аналитика #analytics