А/Б-тесты

Всё про А/Б-тесты, метрики, показатели и т.п.

подборка · 4 материала

4 месяца назад

Ошибка множественного A/B-теста. Поправка Бонферрони

Провели множественный A/B-тест (три варианта: A, B, C), где каждое сравнение сделано с уровнем значимости (вероятностью ошибки I рода) α = 0.05 (5%). Какая результирующая ошибка всего теста? Для одного теста (A vs B) ошибка 5% означает, что если на самом деле различий нет, то мы всё равно с вероятностью 5% ошибочно решим, что они есть. В тесте 3 парных сравнений: A vs B, A vs C, B vs C. Если тесты независимы, то вероятность не совершить ошибку в одном сравнении: 1 − 0.05 = 0.95. Для трёх независимых тестов: 1 − (1 − α)ᵐ Для 3 тестов: 1 − (1 − α)³ P(нет ошибок) = 0...

Аналитика данных

4 месяца назад

Словарь A/B-тестировщика: Что значит «прокрасился тест» и при чём тут светофор?

В большинстве систем аналитики результаты тестов подсвечиваются цветами. Это визуальный язык, который помогает быстро принять решение. Означает статистически значимый положительный результат. Действие — внедряем! Гипотеза подтвердилась, новая версия работает лучше. Означает статистически значимый отрицательный результат. Действие — откатываем / не внедряем. Изменение вредит продукту. Нужно проводить ревью и разбираться, почему так вышло. Означает, что статистической значимости нет. Разница между группами есть, но она настолько мала, что может быть случайным шумом...

Аналитика данных

4 месяца назад

10 этапов (чек-лист) проведения A/B-теста

Прежде чем считать тестовую выборку, ответьте на три вопроса: (!) Если MDE слишком низкий потребуется огромная выборка. Если слишком высокий — пропустите реальный, но скромный успех. Это метрики, которые не должны ухудшиться в процессе теста. Они страхуют нас от негативных последствий. Примеры: повышаем количество установок приложения, контрметрикой будет количество платных подписок. Если ускоряем загрузку, контрметрикой может быть количество технических ошибок. Задача контрметрики — убедиться, что рост одной метрики не «убивает» другую...

Аналитика данных

10 месяцев назад

Связь уровня стат.значимости (α), мощности эксперимента, ошибок I и II рода в A/B-тестах

Например мы, планируем A/B-тест для нового функционала в мобильном приложении. Перед запуском нужно определить параметры эксперимента. Допустим, мы для себя решили что: Что это значит на практике и какую вероятность ошибки мы закладываем?...