AUC-ROC равен доле пар объектов вида (наблюдение класса 1, наблюдение класса 0), которые алгоритм верно упорядочил в соответствии с формулой:
В этой формуле x – ответ алгоритма для наблюдения (при этом это может быть не только вероятность, но и целое число). Наблюдения положительного класса имеют нижний индекс i, наблюдения отрицательного класса имеют нижний индекс j. Важнейшим компонентом формулы является правило скоринга:
У нас есть игрушечный набор из 20 наблюдений. По ним получены спрогнозированные вероятности положительного класса.
Выполняем 5 шагов.
Из 96 пар 83 мы упорядочили правильно, 83 поделили на 96 и получили AUC-ROC 0,865.
Проверим себя.