Целевая (зависимая) переменная – признак Датасета (Dataset), который предстоит предсказывать Модели (Model) Машинного обучения (ML). Зависимой ее называют, поскольку в ходе Разведочного анализа данных (EDA) выявляется Корреляция (Correlation) между одной или несколькими переменными-предикторами (Predictor Variable) и рассматриваемым целевым признаком.
Пример. Банк собирает данные о своих клиентах и хочет выяснить, сколько заемщиков не смогут выполнить свои обязательства. Для этого была сформирована обширная таблица с историческими данными, и на изображении представлена ее часть:
Целевым признаком в соответствии с задачей является "Невыполнение кредитных обязательств". Мы передаем такую таблицу модели (Model) в качестве "образовательного материала". Иными словами, показываем модели, как выглядит профиль клиента, выплачивающего начисляемые проценты, и как выглядит профиль должника. Это фаза тренировки модели (Model Training).
Впоследствии на фазе тестирования (Model Testing) модель получает неполную таблицу (в столбце с целевой переменной пусто) с новыми данными, которых намеренно не поступало на фазе обучения. Дата-сайентист (Data Scientist) как бы создает передаваемую копию этой части данных и намеренно опустошает столбец с целевой переменной, чтобы протестировать предсказательную способность обученной модели. В случае с банком тестовая часть датасета выглядит так:
Модель генерирует ряд предсказаний целевой переменной, который сравнивается с оригинальной, полной версией тестовых данных. Такая последовательность применима не ко всем типам данных, ко Временным рядам (Time Series) применима соответствующая Кросс-валидация (Cross Validation).
Разновидности целевых переменных
Существует несколько видов таргет-признаков:
- Качественная бинарная (как в примере с кредитами): возможными предсказаниями являются "да" или "нет". На самом деле, с тестовыми данными модель генерирует ряд вероятностей от нуля до единицы, которые округляются в бóльшую или меньшую сторону в зависимости от порога (Threshold). В нашем "банковском" примере порогом решили установить число 0,5, и "конвертируются" обратно предсказания таким образом:
- Качественная полиномиальная, где возможными классами являются три и более значений, но их число все равно сильно ограничено. К примеру, магазин электроники прогнозирует, насколько высока вероятность покупателя совершить приобретение в этом месяце (0 – низкая, 1 – средняя, 2 – высокая).
- Количественная дискретная: модель не занимается классификацией, а предсказывает количество чего-либо. Например, туроператор прогнозирует количество путевок, которые приобретет клиент в последующие 10 лет, и их число варьируется от 1 до, скажем, 70.
- Количественная непрерывная: дата-сайентист прогнозирует вещественные значения, например, цены подержанных автомобилей.
Модель и тип целевой переменной
В зависимости от того, какую переменную мы предсказываем, вид модели Машинного обучения меняется, и диаграмма ниже создана, чтобы упростить выбор:
Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.