2 года назад
Создание выборок в условиях дисбаланса классов
Задачи классификации зачастую характеризуются несбалансированностью классов, когда наблюдения одного типа сильно превалируют над другими. При этом такая ситуация может иметь естественные причины, например, опрашивая 10000 человек для создания выборки о диагностики рака, разумно ожидать, что соотношение заболевших и здоровых будет не равным. Соответственно, разбиение данных при формировании тренировочной и тестовой выборок должно проводиться с учетом такой несбалансированности. Иначе вы можете обучить...
6 месяцев назад
Борьба с дисбалансом: взвешивание
Для улучшения качества модели при дисбалансе классов используется их взвешивание, upsampling и downsampling. Алгоритмы машинного обучения считают все объекты обучающей выборки равнозначными по умолчанию. Однако, в большинстве случаев какие-то объекты являются более важными, их классу присваивается вес. Рассмотрим код обучения логистической регрессии с равнозначными классами. Сделаем веса классов сбалансированными. Проследим, как изменится значение F1-меры. import pandas as pd from sklearn.metrics import f1_score from sklearn...