270 подписчиков
A/B тестирование: три ошибки которые делают результат бесполезным
A/B тест — базовый инструмент в продукте и ML. Разделить аудиторию на две группы, показать разные варианты, сравнить метрику. Идея простая. Но именно здесь легко получить вывод, который выглядит как результат, а на деле — случайность.
1. Peeking — остановка теста раньше времени
Самая частая ошибка. Если заглядывать в результаты до достижения нужного объёма выборки и останавливать тест при первом значимом числе — вероятность ложноположительного вывода резко растёт. Это статистически подтверждено.
Как правильно: рассчитать нужный sample size заранее (через power analysis, исходя из ожидаемого эффекта и уровня значимости) и дожидаться его. Промежуточные числа — только ориентир, не решение.
2. Игнорирование сегментов
Средний эффект по всей аудитории скрывает противоположные результаты в разных группах. Например: мобайл +12%, десктоп -6%, в среднем +3% — тест выглядит слабым, хотя на мобайле есть реальный результат. После завершения теста стоит всегда проверять основные срезы: устройство, платформа, гео, новые vs вернувшиеся пользователи.
3. Несколько изменений в одном тесте
Если одновременно поменяли интерфейс, алгоритм и текст кнопки — невозможно понять, что именно повлияло. Тест показал рост, но при следующем изменении логика рассыпается — и снова непонятно почему.
Принцип изолированности изменений — базовое условие корректного эксперимента. Одно изменение за раз.
Итог
Хороший A/B тест — это не интересная история. Это скучный процесс: одно изменение, правильный sample size, ожидание. Скучно — значит, методологически правильно.
1 минута
12 апреля