728 подписчиков

Accuracy в Машинном обучении простыми словами

10 января 202110 янв 2021

186

1 мин

Доля правильных ответов (ДПО, точность) – это коэффициент, характеризующий верность прогноза Модели (Model), отношение правильно спрогнозированных Наблюдений (Observation) к общему их количеству. Рассчитывается показатель с помощью формулы: Для бинарной классификации (Binary Classification) ДПО также может быть рассчитана с помощью Матрицы ошибок (Confusion Matrix) следующим образом: Пример. Попробуем рассчитать accuracy модели, которая различает злокачественные (положительный класс) и доброкачественные (отрицательный класс) опухоли. По результатам последовавшей медицинской проверки оказалось, что модель была права не везде: Согласно формуле, ДПО будет равна: По меркам современной "успеваемости" моделей Машинного обучения (ML), мы добились, на первый взгляд, удовлетворительного результата. Но так ли все просто? На 100 наблюдений 91 доброкачественных и 9 злокачественных. Поскольку способность модели найти злокачественные опухоли – ключевая задача модели, то эффективность в 1/9 (≈0,11)

Для бинарной классификации (Binary Classification) ДПО также может быть рассчитана с помощью Матрицы ошибок (Confusion Matrix) следующим образом:

Пример. Попробуем рассчитать accuracy модели, которая различает злокачественные (положительный класс) и доброкачественные (отрицательный класс) опухоли. По результатам последовавшей медицинской проверки оказалось, что модель была права не везде:

Согласно формуле, ДПО будет равна:

По меркам современной "успеваемости" моделей Машинного обучения (ML), мы добились, на первый взгляд, удовлетворительного результата. Но так ли все просто?

На 100 наблюдений 91 доброкачественных и 9 злокачественных.

Из 91 доброкачественных опухолей 90 обнаружены
Из 9 злокачественных только 1 диагностирована. Иными словами, 8 из 9 злокачественных опухолей не диагностированы. И в этом суть.

Поскольку способность модели найти злокачественные опухоли – ключевая задача модели, то эффективность в 1/9 (≈0,11) не может быть признана достаточной.

Сама по себе ДПО не дает полной картины, когда вы работаете с несбалансированным по классам датасетом (Imbalanced Dataset), подобным этому, где количество отрицательных значительно превышает количество положительных меток. Тогда полную картину составят accuracy в сочетании с другими показателями: Точность результата измерений (Precision), Отзыв (Recall), критерий F1 (F1 Score).

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.

Машинное обучение (Machine Learning)

35,8 тыс интересуются