Задачи классификации зачастую характеризуются несбалансированностью классов, когда наблюдения одного типа сильно превалируют над другими. При этом такая ситуация может иметь естественные причины, например, опрашивая 10000 человек для создания выборки о диагностики рака, разумно ожидать, что соотношение заболевших и здоровых будет не равным. Соответственно, разбиение данных при формировании тренировочной и тестовой выборок должно проводиться с учетом такой несбалансированности. Иначе вы можете обучить...
Для улучшения качества модели при дисбалансе классов используется их взвешивание, upsampling и downsampling. Алгоритмы машинного обучения считают все объекты обучающей выборки равнозначными по умолчанию. Однако, в большинстве случаев какие-то объекты являются более важными, их классу присваивается вес. Рассмотрим код обучения логистической регрессии с равнозначными классами. Сделаем веса классов сбалансированными. Проследим, как изменится значение F1-меры. import pandas as pd
from sklearn.metrics import f1_score
from sklearn...