дисбаланс классов машинное обучение

1 год назад

🎯 Несбалансированное обучение и почему не стоит слепо доверять весам классов

Машинное обучение не любит перекосы. Но как быть, если данных одного класса в 100 раз больше, чем другого? Обычно первая мысль, приходящая в голову разработчику — взвесить классы обратно пропорционально их частоте. Но так ли это просто на практике? Автор блога andersource.dev решил разобраться в этом на конкретном примере и пришёл к неожиданным выводам. 🔬 Суть проблемы: почему важен баланс классов? Допустим, вы решаете задачу бинарной классификации изображений: один класс (например, дефекты на производстве) встречается очень редко, а другой (нормальные образцы) — повсеместно...