Техника переcэмплирования синтетического меньшинства (Synthetic Minority Oversampling Technique – SMOTE) – метод подготовки Несбалансированного датасета (Imbalanced Dataset) к загрузке в Модель (Model) Машинного обучения (ML), предполагающий дублирование Наблюдений (Observation) класса, представителей которого в наборе меньше остальных. Зачастую наборы данных являются несбалансированными: например, при исследовании раковых заболеваний подавляющее большинство пациентов здоровы. При Обнаружении мошеннических операций (Fraud Detection) большая часть финансовых транзакций все же является законными. И это существенно влияет на эффективность модели. Проблема работы с несбалансированными наборами данных заключается в том, что большинство методов машинного обучения будут "игнорировать" класс меньшинства и, как следствие, будут иметь низкую производительность, хотя именно эти данные наиболее важны. Один из подходов к устранению несбалансированности – это дублирующая выборка класса меньшинства,
SMOTE в Машинном обучении простыми словами
31 октября 202131 окт 2021
121
2 мин