Найти в Дзене

День 203. Основы статистики и AB-тестирования. А/В -тесты.

A/B-тест (он же A/B-эксперимент) — это инструмент, который позволяет делать надёжные выводы о влиянии изменения на продукт, за счёт использования статистических методов и параллельного сбора данных для сравниваемых групп. Терминология A/B-тестирования Последовательность шагов при проведении A/B-тестирования A/B-эксперимент проводят в такой последовательности: Сетевым эффектом называют ситуацию, когда поведение одних пользователей в рамках A/B-теста может влиять на поведение других пользователей. Типы метрик Все метрики можно разделить на три группы: Количественные метрики В эту группу попадает большая часть метрик, на которые смотрит бизнес. Примерами таких метрик могут быть: ARPU — основной показатель оценки того, как эффективно бизнес монетизирует деятельность. ARPU=ARPPU⋅Payingshare, где Paying share — это доля пользователей, совершивших покупку. Конверсия (англ. Conversion Rate, CR) — процент пользователей, совершивших целевое действие. Метрики, единица анализа которых отличается
Оглавление

Что такое A/B-тест

A/B-тест (он же A/B-эксперимент) — это инструмент, который позволяет делать надёжные выводы о влиянии изменения на продукт, за счёт использования статистических методов и параллельного сбора данных для сравниваемых групп.

Терминология A/B-тестирования

  • Контроль (группа контроля, контрольная группа) — это группа пользователей, для которых не вводят изменений. В нашем примере — это пользователи, которые увидят старый вариант чекаута.
  • Тест (группа теста, тестовая группа) — это группа пользователей, для которых вводят тестируемое изменение. В нашем примере — это пользователи, которые увидят новый экран чекаута.
  • Тритмент (англ. treatment — лечение) — это изменение, которое вводят для тестовой группы. В нашем случае это вид экрана чекаута.
  • Фича (англ. feature — особенность) — похожий по значению на «тритмент», но более общий термин, который используется в IT-компаниях для обозначения нового функционала в продукте.
  • Раскатить фичу — ввести изменение для всех пользователей или для части.
  • Метрика — показатель, изменение которого анализируют по результатам эксперимента. Например, прибыль с пользователя или количество заказов.
  • Зелёный тест — эксперимент, по результатам которого зафиксировали статистически значимый прирост метрики.
  • Красный тест — эксперимент, по результатам которого зафиксировали статистически значимое падение метрики.
  • Серый тест — эксперимент, по результатам которого не зафиксировали статистически значимого изменения метрики.

Последовательность шагов при проведении A/B-тестирования

A/B-эксперимент проводят в такой последовательности:

  1. Выбираем метрики и формулируем гипотезы.
  2. Выбираем способ рандомизации и определяем параметры выборки.
  3. Определяем необходимый размер выборки.
  4. Запускаем эксперимент и собираем данные.
  5. Проверяем валидность эксперимента.
  6. Рассчитываем результаты и принимаем решение о раскатке фичи.

Сетевым эффектом называют ситуацию, когда поведение одних пользователей в рамках A/B-теста может влиять на поведение других пользователей.

-2

Количественные метрики

Типы метрик

Все метрики можно разделить на три группы:

  • количественные;
  • конверсионные;
  • метрики-отношения.

Количественные метрики

В эту группу попадает большая часть метрик, на которые смотрит бизнес. Примерами таких метрик могут быть:

  • денежные метрики — выручка, валовая прибыль, чистая прибыль;
  • количественные метрики — количество созданных заказов, количество выкупленных заказов, количество заказанных вещей;
  • технические метрики — время загрузки страницы, количество неудачных загрузок страницы.
-3

ARPU — основной показатель оценки того, как эффективно бизнес монетизирует деятельность.

-4
-5

ARPU=ARPPUPayingshare,

где Paying share — это доля пользователей, совершивших покупку.

Конверсии и метрики-отношения

Конверсия (англ. Conversion Rate, CR) — процент пользователей, совершивших целевое действие.

-6
-7

Метрики, единица анализа которых отличается от единицы рандомизации, выбранной в рамках эксперимента, называют метриками-отношениями или ratio-метриками (англ. ratio — отношение).

MDE и мощность

-8

Вероятность ошибки первого рода, αα — это вероятность зафиксировать эффект там, где его на самом деле нет.

Вероятность ошибки второго рода, ββ — это вероятность не зафиксировать эффект там, где он на самом деле есть.

Мощность, 1−β1−β — это вероятность зафиксировать эффект там, где он на самом деле есть. Мощность также часто называют чувствительностью теста.

-9
-10

Объём групп и продолжительность теста

Эффект накопления метрик — явление, при котором значение метрики на пользователя растёт со временем, что приводит к увеличению её математического ожидания и дисперсии.

Проверка валидности эксперимента

A/A-тест — это A/B-тест, применённый в ситуации, когда мы не ожидаем получить статистически значимых различий между группами.

SRM (англ. Sample Ratio Mismatch — несоответствие пропорции выборки) — это ситуация, при которой полученная пропорция размеров тестовой и контрольной групп отличается от ожидаемой.

Расчёт и интерпретация результатов

Напомним, результат теста может быть таким:

  • зафиксировали статистически значимый прирост метрики — тест зелёный;
  • зафиксировали статистически значимое падение метрики — тест красный;
  • не зафиксировали статистически значимого изменения метрики — тест серый.

Доверительный интервал в рамках A/B-тестирования — это интервал, который с заданным уровнем доверия содержит в себе неизвестный параметр, в нашем случае — истинную разность математических ожиданий.

-11
-12