Найти в Дзене
Аналитика данных

Словарь A/B-тестировщика: Что значит «прокрасился тест» и при чём тут светофор?

В большинстве систем аналитики результаты тестов подсвечиваются цветами. Это визуальный язык, который помогает быстро принять решение. Означает статистически значимый положительный результат. Действие — внедряем!
Гипотеза подтвердилась, новая версия работает лучше. Означает статистически значимый отрицательный результат. Действие — откатываем / не внедряем.
Изменение вредит продукту. Нужно проводить ревью и разбираться, почему так вышло. Означает, что статистической значимости нет. Разница между группами есть, но она настолько мала, что может быть случайным шумом. Варианты серой зоны: Действие — оставляем контрольную (старую версию). Либо собираем больше данных, если эффект кажется перспективным. Означвет промежуточное состояние или предупреждение. Действие — ждём. Не принимаем решений, пока тест не завершится или не наберётся мощность. Выражение означает, что набралась статистическая значимость. Важно: Тест может «прокраситься» преждевременно (на 3-й день), если просто случайно метрик
Оглавление

Цветовая индикация: светофор аналитика

В большинстве систем аналитики результаты тестов подсвечиваются цветами. Это визуальный язык, который помогает быстро принять решение.

🟢 Зелёный цвет

Означает статистически значимый положительный результат.

  • P-value < 0.05 (вероятность случайного результата менее 5%).
  • Доверительный интервал лежит целиком в положительной зоне (не пересекает ноль).
  • Метрика выросла на величину, равную или превышающую MDE (минимальный детектируемый эффект).
Действие — внедряем!
Гипотеза подтвердилась, новая версия работает лучше.

🔴 Красный цвет

Означает статистически значимый отрицательный результат.

  • P-value < 0.05.
  • Доверительный интервал лежит целиком в отрицательной зоне.
  • Ключевая метрика и/или контрметрика значимо упала.
Действие — откатываем / не внедряем.
Изменение вредит продукту. Нужно проводить ревью и разбираться, почему так вышло.

⚪️ Серый цвет

Означает, что статистической значимости нет. Разница между группами есть, но она настолько мала, что может быть случайным шумом.

  • P-value > 0.05.
  • Доверительный интервал пересекает ноль (например, от -1% до +3%). Мы не можем сказать точно, выросла метрика или упала.

Варианты серой зоны:

  1. Эффект близок к нулю — гипотеза не сработала, но и не навредила.
  2. Недостаточно мощности теста — выборка слишком мала, чтобы «разглядеть» эффект. Тест нужно либо продлевать, либо закрывать как невалидный.
Действие — оставляем контрольную (старую версию). Либо собираем больше данных, если эффект кажется перспективным.

🟡 Жёлтый / 🟠 Оранжевый цвет

Означвет промежуточное состояние или предупреждение.

  • P-value близко к 0.05 (например, 0.06), но значимость ещё не достигнута.
  • Контрметрика немного просела, но в пределах допустимого шума.
  • Идёт процесс набора выборки (тест ещё не закончен).
Действие — ждём. Не принимаем решений, пока тест не завершится или не наберётся мощность.

Терминология «Прокрашивания»

1. «Тест прокрасился»

Выражение означает, что набралась статистическая значимость.

  • «Тест прокрасился в зелёный» → Мы увидели статзначимый рост.
  • «Тест так и не прокрасился» → Выборку набрали, а значимости (ни зелёной, ни красной) так и нет. Результат неопределённый (серый).
Важно: Тест может «прокраситься» преждевременно (на 3-й день), если просто случайно метрика поднялась скачкообразно. Хорошая практика — ждать фиксированного размера выборки, рассчитанного заранее, чтобы избежать ошибки «подглядывания».

2. Несоответствие соотношения выборок (SRM, Sample Ratio Mismatch) — «Красный флаг»

Проверяется до начала теста с помощью А/А-тестирования ацдитории. Если вы видите, что вместо 50/50 пользователей в группах соотношение 40/60 или 48/52 (при большой выборке), дашборд может подсветить это красным.

Такая ситуация опасна — тест невалиден. Сравнивать такие группы нельзя.

Действие — остановить тест, чинить сплит.

3. Контрметрики

Это метрики-ограничители. Если ключевая метрика (например, выручка) горит зелёным, а контрметрика (например, отписки или ошибки 500) горит красным — общий вердикт теста часто красный или жёлтый.

Пример — мы увеличили клики (зелёный), но сайт начал тормозить (красный). Внедрять нельзя.

Резюме

  1. Смотрим на SRM: группы 50/50? Если нет (красный) → тест в мусорку.
  2. Смотрим на контрметрики: нет ли красных зон там, где не должно быть убытков?
  3. Смотрим на ключевую метрику:
    🟢 зелёный + доверительный интервал не пересекает 0 → Внедряем,
    🔴
    красный + доверительный интервал не пересекает 0 → Откатываем,
    ⚪️
    Серый / доверительный интервал пересекает 0 → Оставляем как было. Гипотеза не подтвердилась.

Цвет на дашборде — это не истина в последней инстанции, а повод для глубокого анализа. Всегда спрашивайте: «Почему это произошло?» и «Можно ли этому доверять?».