269 подписчиков

A/B тестирование: три ошибки которые делают результат бесполезным

A/B тест — базовый инструмент в продукте и ML. Разделить аудиторию на две группы, показать разные варианты, сравнить метрику. Идея простая. Но именно здесь легко получить вывод, который выглядит как результат, а на деле — случайность.

1. Peeking — остановка теста раньше времени

Самая частая ошибка. Если заглядывать в результаты до достижения нужного объёма выборки и останавливать тест при первом значимом числе — вероятность ложноположительного вывода резко растёт. Это статистически подтверждено.

Как правильно: рассчитать нужный sample size заранее (через power analysis, исходя из ожидаемого эффекта и уровня значимости) и дожидаться его. Промежуточные числа — только ориентир, не решение.

2. Игнорирование сегментов

Средний эффект по всей аудитории скрывает противоположные результаты в разных группах. Например: мобайл +12%, десктоп -6%, в среднем +3% — тест выглядит слабым, хотя на мобайле есть реальный результат. После завершения теста стоит всегда проверять основные срезы: устройство, платформа, гео, новые vs вернувшиеся пользователи.

3. Несколько изменений в одном тесте

Если одновременно поменяли интерфейс, алгоритм и текст кнопки — невозможно понять, что именно повлияло. Тест показал рост, но при следующем изменении логика рассыпается — и снова непонятно почему.

Принцип изолированности изменений — базовое условие корректного эксперимента. Одно изменение за раз.

Итог

Хороший A/B тест — это не интересная история. Это скучный процесс: одно изменение, правильный sample size, ожидание. Скучно — значит, методологически правильно.

1 минута

12 апреля