Добавить в корзинуПозвонить
Найти в Дзене

Accuracy в Машинном обучении простыми словами

Доля правильных ответов (ДПО, точность) – это коэффициент, характеризующий верность прогноза Модели (Model), отношение правильно спрогнозированных Наблюдений (Observation) к общему их количеству. Рассчитывается показатель с помощью формулы: Для бинарной классификации (Binary Classification) ДПО также может быть рассчитана с помощью Матрицы ошибок (Confusion Matrix) следующим образом: Пример. Попробуем рассчитать accuracy модели, которая различает злокачественные (положительный класс) и доброкачественные (отрицательный класс) опухоли. По результатам последовавшей медицинской проверки оказалось, что модель была права не везде: Согласно формуле, ДПО будет равна: По меркам современной "успеваемости" моделей Машинного обучения (ML), мы добились, на первый взгляд, удовлетворительного результата. Но так ли все просто? На 100 наблюдений 91 доброкачественных и 9 злокачественных. Поскольку способность модели найти злокачественные опухоли – ключевая задача модели, то эффективность в 1/9 (≈0,11)
Фото: @bermixstudio
Фото: @bermixstudio

Доля правильных ответов (ДПО, точность) – это коэффициент, характеризующий верность прогноза Модели (Model), отношение правильно спрогнозированных Наблюдений (Observation) к общему их количеству. Рассчитывается показатель с помощью формулы:

-2

Для бинарной классификации (Binary Classification) ДПО также может быть рассчитана с помощью Матрицы ошибок (Confusion Matrix) следующим образом:

-3

Пример. Попробуем рассчитать accuracy модели, которая различает злокачественные (положительный класс) и доброкачественные (отрицательный класс) опухоли. По результатам последовавшей медицинской проверки оказалось, что модель была права не везде:

-4

Согласно формуле, ДПО будет равна:

-5

По меркам современной "успеваемости" моделей Машинного обучения (ML), мы добились, на первый взгляд, удовлетворительного результата. Но так ли все просто?

На 100 наблюдений 91 доброкачественных и 9 злокачественных.

  • Из 91 доброкачественных опухолей 90 обнаружены
  • Из 9 злокачественных только 1 диагностирована. Иными словами, 8 из 9 злокачественных опухолей не диагностированы. И в этом суть.

Поскольку способность модели найти злокачественные опухоли – ключевая задача модели, то эффективность в 1/9 (≈0,11) не может быть признана достаточной.

Сама по себе ДПО не дает полной картины, когда вы работаете с несбалансированным по классам датасетом (Imbalanced Dataset), подобным этому, где количество отрицательных значительно превышает количество положительных меток. Тогда полную картину составят accuracy в сочетании с другими показателями: Точность результата измерений (Precision), Отзыв (Recall), критерий F1 (F1 Score).

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.