10,1 тыс подписчиков
📌 Задача про метрики
Пусть мы обучили логистическую регрессию и метод опорных векторов для решения задачи бинарной классификации, предсказали классы с помощью моделей на тестовых данных и измерили f1-score. Оказалось, что значение метрики у логистической регрессии на 0,1 выше, чем у метода опорных векторов.
Означает ли это, что логистическая регрессия лучше решает задачу?
Ответ: нет, не означает.
Решение
Метрика f1-score зависит от порога, по которому мы переводим предсказанные моделью «вероятности» в классы. По умолчанию порог для перевода равен 0,5: то есть если уверенность модели в положительном классе составляет 0,5 или больше, мы относим объект к положительному классу, а иначе — к отрицательному.
При увеличении порога точность (precision) растет, а полнота (recall) падает, и наоборот. Метрика f1-score нелинейно зависит от точности и полноты и вычисляется по формуле:
f1= 2*precision *recall / precision* recall
Поэтому она будет изменяться при изменении порога.
В условии мы измерили значение метрики на исходных классах, то есть использовали порог по умолчанию 0,5. Он мог быть не оптимальным как для логистической регрессии, так и для метода опорных векторов.
Чтобы узнать, какая из моделей лучше работает в конкретном случае с точки зрения метрики f1, необходимо для каждой из моделей подобрать свой оптимальный порог и вычислить для него значение f1. Тогда мы сможем сказать, какая модель лучше.
1 минута
1 июля 2023
357 читали