46 подписчиков

Модели машинного обучения: почему точность 80% ничего не значит

20 января20 янв

4 мин

Обычно, когда аналитик приносит в бизнес модель классификации, почти неизбежно звучит вопрос о точности этой самой модели. И почти так же неизбежно аналитик отвечает словами вроде accuracy, AUC, precision, recall, а дальше в комнате происходит тихая магия - часть людей делает вид, что поняла, часть честно перестаёт слушать, а решение всё равно принимается на ощущениях, ведь эти самые метрики сами по себе не отвечают на главный вопрос: что будет, если модель ошибётся. В бизнесе ошибки далеко не разнозначны. Иногда одна ошибка стоит пару минут лишней работы, а иногда одна ошибка стоит срыва проекта, потери кандидата, репутационного удара или даже денег. Поэтому модель нельзя оценивать в каком-то вакууме. Её оценивают через цену ошибки, то есть через последствия неправильного решения. И это, по сути, самый простой способ объяснить качество модели человеческим языком, не превращая разговор в семинар или лекцию о показателях точности. В классификации есть две базовые ошибки, о них обычно зн

Оглавление

Два вида ошибок
Пример на HR данных
И другой HR пример, где все наоборот

В бизнесе ошибки далеко не разнозначны. Иногда одна ошибка стоит пару минут лишней работы, а иногда одна ошибка стоит срыва проекта, потери кандидата, репутационного удара или даже денег. Поэтому модель нельзя оценивать в каком-то вакууме. Её оценивают через цену ошибки, то есть через последствия неправильного решения. И это, по сути, самый простой способ объяснить качество модели человеческим языком, не превращая разговор в семинар или лекцию о показателях точности.

Два вида ошибок

В классификации есть две базовые ошибки, о них обычно знаю все.

Первая ошибка - мы решили, что риска нет, но он есть. Это когда модель нас успокоила, сказав, что проблемы не будет, а потом случилась проблема.

Вторая ошибка - мы решили, что риск есть, но его нет. Это когда модель перестраховалась, и мы потратили ресурс там, где можно было не тратить.

И эти ошибки почти никогда не стоят одинаково. Ведь в одном процессе дорого пропустить риск, а лишнее вмешательство терпимо. А в другом процессе получается так, лишнее вмешательство разрушает эффективность и перегружает команду, поэтому дорого именно оно. Если ты не проговорил это с бизнесом, то любые разговоры про метрики качества будут оторваны от реальности, потому что ты скорее всего будешь оптимизировать не то.

Пример на HR данных

Представь себе модель, которая оценивает вероятность того, что кандидат не примет оффер. И вот, компания хочет решить, кого вести в некотором усиленном режиме: быстрее давать ответы, подключать руководителя, заранее обсуждать условия, делать коммуникацию более персональной. Ресурс на это ограничен, но он есть.

Теперь посмотри на цену двух ошибок. Если мы пропустили высокий риск и кандидат отказался, мы теряем не только кандидата. Мы теряем время рекрутера, время менеджера, время команды, иногда месяц найма, и часто ещё и доверие. Это достаточно дорогая ошибка. А вот если мы перестраховались и вели кандидата более внимательно, но он и так бы принял, то мы потеряли немного времени и энергии. Это неприятно, но обычно терпимо, ведь результат на лицо.

В таком процессе модель должна быть настроена так, чтобы не пропускать дорогие отказы, даже если иногда она будет перестраховываться. И тогда становится понятно, почему точность в 80% ничего не говорит. Потому что модель с той же точностью может пропускать самые дорогие случаи, и тогда она для бизнеса бесполезна, а может ловить именно их, и тогда она будет суперполезной.

И другой HR пример, где все наоборот

А теперь диаметрально противоположная ситуация. Допустим, модель предсказывает, где нанимающие менеджеры с высокой вероятностью нарушат SLA по фидбеку. И вы хотите вмешиваться: напоминания, эскалации, дополнительные коммуникации. Если модель будет слишком часто ложно вас тревожить, она начнёт раздражать менеджеров, снизит доверие к HR и со временем просто перестанет работать как инструмент. Здесь цена перестраховки может быть более высокой, потому что она сжигает доверие и делает процесс токсичным.

То есть в одном HR-кейсе тебе важно не пропускать риск, а в другом важнее не раздражать лишними срабатываниями. И это опять приводит нас к тому, что модель оценивается через последствия, а не через универсальные метрики.

Порог и матрица ошибок как язык последствий

Вся цена ошибки обычно упирается в порог вероятности. Модель выдаёт вероятность, а ты решаешь, при каком значении мы начинаем действовать. И этот порог напрямую управляет тем, что будет происходить: если порог низкий, ты вмешиваешься чаще, ловишь больше рисков, но чаще тревожишь зря. Если порог высокий, ты вмешиваешься редко, экономишь ресурс, но больше рисков пропускаешь.

Технически это можно объяснить без формул через простой смысл: ты выбираешь баланс между двумя ошибками. И вместо абстрактных “precision/recall” ты можешь говорить: “если мы поставим порог так, то из 100 кандидатов мы будем вмешиваться в 30, и из этих 30 у 18 действительно был бы отказ, а 12 мы вели зря. Если поставим иначе, вмешательств будет 15, но мы упустим больше отказов”.

А дальше можно сделать самое полезное в таком случае - посчитать примерную стоимость. Сколько стоит один сорванный оффер в днях простоя, в переработках, в деньгах и в репутации. А сколько стоит одно лишнее вмешательство в часах рекрутера и менеджера? Как только у тебя появляется хотя бы грубая оценка стоимости, качество модели перестаёт быть абстракцией.

Вывод

Качество модели нельзя обсуждать без цены ошибки, потому что в бизнесе ошибки не равны. Точность в 80% может быть как отличной, так и отлично-бесполезной, если она промахивается по самым дорогим кейсам. Поэтому лучше всего, начинать диалог об эффективности модели не с метрик, а с последствий: какая ошибка дороже, какой у нас ресурс на вмешательство, и какой баланс между пропуском риска и ложной тревогой мы готовы принять.

И когда этот разговор происходит, модель наконец становится тем, чем она должна быть - инструментом распределения внимания и денег там, где это реально окупается.

Я регулярно разбираю такие темы в своём Telegram-канале, если вам интересно глубже понимать аналитику и работать с данными, там регулярно выходят короткие заметки и практические примеры.