Добавить в корзинуПозвонить
Найти в Дзене
Postgres DBA

Подробное описание "Brier score"

ℹ️Материал подготовлен нейросетью DeepSeek.
Подробное описание Brier score (часто переводится как показатель Брайера, а в дословном, ироничном переводе — «оценка шиповника», от англ. brier — шиповник) выглядит следующим образом.
Brier score — это числовая мера точности вероятностных прогнозов для событий с конечным числом исходов. Проще говоря, она показывает, насколько предсказанная вероятность
Оглавление

ℹ️Материал подготовлен нейросетью DeepSeek.

Подробное описание Brier score (часто переводится как показатель Брайера, а в дословном, ироничном переводе — «оценка шиповника», от англ. brier — шиповник) выглядит следующим образом.

1. Суть метрики

Brier score — это числовая мера точности вероятностных прогнозов для событий с конечным числом исходов. Проще говоря, она показывает, насколько предсказанная вероятность отличается от фактического исхода (который равен либо 0, либо 1). Чем меньше значение, тем точнее прогнозы.

Метрика была предложена американским метеорологом Гленном Уилсоном Брайером (Glenn Wilson Brier) в 1950 году для оценки качества вероятностных прогнозов погоды. С тех пор она широко применяется в метеорологии, медицине, машинном обучении, экономике и других областях, где требуется оценить не просто факт предсказания класса, а уверенность модели в этом предсказании.

2. Математическая формула (для бинарных событий)

Если прогнозируется бинарное событие y (произошло — 1, не произошло — 0), а модель выдаёт для каждого наблюдения i предсказанную вероятность pi​ (от 0 до 1), то Brier score вычисляется как средний квадрат ошибки между предсказаниями и фактами:

-2

где:

  • N — общее число прогнозов,
  • pi​ — предсказанная вероятность того, что yi​=1,
  • yi​ — фактический исход (1 или 0).

Это среднеквадратичная ошибка (MSE) для вероятностных прогнозов.

Диапазон значений: от 0 до 1.

  • 0 — идеальный прогноз: всем событиям, которые произошли, модель присвоила вероятность 1, а всем не произошедшим — вероятность 0.
  • 1 — наихудший прогноз: всем произошедшим событиям модель присвоила вероятность 0, а всем не произошедшим — 1.
  • 0.25 — значение, которое можно получить, всегда предсказывая 0.5 (случайное гадание) для сбалансированных данных, или если предсказывается базовая частота положительного класса для всех наблюдений.

3. Многоклассовое обобщение

Если событие имеет K взаимоисключающих исходов, Brier score обобщается как средняя сумма квадратов отклонений по всем классам:

-3

Здесь pik​ — предсказанная вероятность класса k для наблюдения i, yik​ — индикатор фактического класса (1, если это истинный класс, иначе 0). При K=2 формула сводится к бинарному случаю (с точностью до множителя 2, если считать оба класса, поэтому иногда бинарный Brier score определяют как

1N∑(pi1−yi)2×2N1​∑(pi1​−yi​)2×2,

но классический вариант — без множителя 2).

4. Декомпозиция Brier score

Ценность Brier score в том, что его можно разложить на три содержательные компоненты, показывающие разные аспекты качества прогнозов:

BS=Неточность (Reliability)−Разрешающая способность (Resolution)+Неопределённость (Uncertainty)

  • Неточность (калибровка): насколько средние предсказанные вероятности в группах совпадают с реальной частотой исходов в этих группах. Идеальная калибровка: если модель говорит «вероятность 70%», событие должно происходить примерно в 70% случаев.
  • Разрешающая способность: насколько модель способна разделять ситуации, в которых событие происходит, и те, в которых не происходит. Хорошая модель даёт разные вероятности разным по сложности случаям.
  • Неопределённость: мера присущей задаче дисперсии исходов. Не зависит от модели и определяется только долей положительных исходов в данных. Максимальна при доле 0.5.

Эта декомпозиция помогает понять, почему прогнозы неточны: из-за плохой калибровки или из-за недостаточной разрешающей способности.

5. Интерпретация и свойства

  • Строгая правильность (strictly proper scoring rule): Brier score — это строго правильная скор-функция. Это математическое свойство означает, что для минимизации ожидаемого значения Brier score прогнозист должен сообщать свои истинные субъективные вероятности. Любое отклонение от истинной вероятности (например, намеренное завышение уверенности) приведёт к ухудшению (увеличению) Brier score. Это делает метрику устойчивой к «игре» с ней.
  • Чувствительность к экстремальным ошибкам: квадрат ошибки штрафует сильнее за большие отклонения. Ошибка «предсказал 0.99, а событие не произошло» даёт вклад (0.99−0)2=0.9801(0.99−0)2=0.9801, что почти в 4 раза больше, чем ошибка «предсказал 0.5 при непроизошедшем событии» (0.25)(0.25). Таким образом, метрика особенно строга к излишней самоуверенности модели.
  • Сравнение с Accuracy: в отличие от простой доли правильных ответов, Brier score учитывает степень уверенности. Две модели, дающие одинаковый класс (с порогом 0.5), могут иметь одинаковую точность, но модель с вероятностями, близкими к 0 или 1 для верных ответов и к 0.5 для ошибочных, получит лучший (меньший) Brier score.

6. Пример вычисления

Допустим, прогнозируется дождь на 5 дней.

Факт (y): [1, 0, 1, 1, 0].

Прогнозы вероятности дождя (p): [0.9, 0.2, 0.6, 0.4, 0.1].

Считаем квадраты ошибок:

  1. (0.9−1)2=0.01(0.9−1)2=0.01
  2. (0.2−0)2=0.04(0.2−0)2=0.04
  3. (0.6−1)2=0.16(0.6−1)2=0.16
  4. (0.4−1)2=0.36(0.4−1)2=0.36
  5. (0.1−0)2=0.01(0.1−0)2=0.01

Сумма: 0.01+0.04+0.16+0.36+0.01=0.580.01+0.04+0.16+0.36+0.01=0.58

Brier score = 0.58 / 5 = 0.116.

Это неплохой показатель (ближе к 0, чем к 0.25), хотя прогноз для 4-го дня (вероятность 0.4 при факте 1) заметно его ухудшил.

7. Применение

  • Метеорология: исторически первая и до сих пор стандартная метрика для оценки вероятностных прогнозов осадков, гроз и т.п.
  • Медицинская диагностика: оценка прогностических моделей, предсказывающих риск заболевания или исхода лечения.
  • ℹ️Машинное обучение: калибровка вероятностей (Platt scaling, изотоническая регрессия) часто настраивается именно по Brier score. Используется для сравнения качества вероятностных выходов классификаторов.
  • Спортивный аналитинг: прогнозирование исхода матчей с вероятностями (победа/ничья/поражение).
  • Финансы: оценка вероятности дефолта по кредитам.

8. Brier Skill Score (BSS)

Для сравнения с некоторым эталонным прогнозом (например, климатологическим средним) часто используют относительную меру — Brier Skill Score:

-4

Если BSS>0, модель лучше эталона; если BSS=1 — идеальный прогноз; отрицательные значения означают, что модель хуже эталона.

Резюме

ℹ️Brier score — это простая, интерпретируемая и математически обоснованная метрика для вероятностных прогнозов.

Её главная сила в том, что она одновременно оценивает и калибровку, и разрешающую способность, наказывая как за неуверенные правильные прогнозы, так и за излишне уверенные ошибочные.

Именно поэтому она остаётся золотым стандартом вероятностной оценки уже более 70 лет.