Отбор признаков — это процесс идентификации и выбора подмножества Признаков (Feature), наиболее релевантных Целевой переменной (Target Variable). Самый простой случай отбора – числовые Предикторы (Predictor Variable) и числовая целевая переменная в случае Регрессии (Regression). Здесь легче рассчитать силу связи между каждой входной переменной и целевой. Мы и будем использовать синтетический набор данных в качестве основы для регрессионной Модели (Model). Задача регрессии — предсказать числовое значение целевого признака. Функцию make_regression() библиотеки scikit-learn можно использовать для генерации набора данных регрессии. Он обеспечивает контроль над количеством Наблюдений (Observation), признаков и, что важно, количеством релевантных и избыточных входных признаков. Для начала импортируем необходимые библиотеки: from matplotlib import pyplot from matplotlib.pyplot import figure from sklearn.datasets import make_regression from sklearn.feature_selection import SelectKBest, chi2,
Feature Selection в Машинном обучении простыми словами
23 июня 202223 июн 2022
76
2 мин