Найти в Дзене

Feature в Машинном обучении простыми словами

Оглавление
Фото: @davidclode
Фото: @davidclode

Признак (переменная, фича, атрибут, столбец, функция, фактор) – это объективная характеристика, характерная черта или свойство, которое может быть определено или измерено.

Представьте, что Вы имеете дело с таблицей, состоящей из столбцов, рядов и ячеек: это данные о классификация еще не родившихся детей со здоровым и больным сердцем на основании данных УЗИ. Столбец C – индикатор наличия болезни, где ноль означает, что плод здоров.

Универсальные табличные данные
Универсальные табличные данные

Статистика

С точки зрения Статистики (Statistics) , мы рассматриваем некую гипотетическую функцию f, где с помощью входных (input) переменных X пытаемся предсказать выходную (output) Y .

Статистические данные для предсказания Y
Статистические данные для предсказания Y

Иными словами, мы используем независимые (independent) переменные X для предсказания зависимого (dependent) признака Y:

Если же речь идет о компьютеризированной вычислительной статистике, строка часто описывает сущность (например, человека) и Наблюдение (Observation) о ней. Столбцы строки часто называют атрибутами наблюдения. Тогда при моделировании проблемы и прогнозировании мы ссылаемся на входные (input) и выходные (output) атрибуты.

Машинное обучение

Вот мы и добрались до Машинного обучения (ML), где всем известные термины статистики обрели новое прочтение и были снова переименованы, на сей раз в предиктор (Predictor Variable) и целевую переменную (Target Variable). Теперь мы работаем с бо́льшими объемами данных, но принципы похожи: ссылаясь на предсказательные данные, мы определяем ценность каждой из таких переменных в формировании целевого признака.

Ссылаясь на пример со здоровьем плода, каковы частота сердечных сокращений и количество движений плода у здорового, а какие – у больного ребенка?

Признаки и типы

Помимо вышеуказанной классификации признаков, существуют еще и другая перспектива: типы данных (числовые, категориальные временные, текстовые):

Слева направо: числовые, категориальные, текстовые, временные, числовые данные
Слева направо: числовые, категориальные, текстовые, временные, числовые данные

Понравилась статья? Поддержите нас, поделившись статьей в социальных сетях и подписавшись на канал. И попробуйте наши курсы по Машинному обучению на Udemy.