Объединение числовых признаков в группы на основе числовых интервалов , в которые попадает исходное значение, может увеличить производительность модели. Во-первых, приведение к двоичным признакам может быть сделано, благодаря знаний предметной области датасетов, чтобы улучшить производительность моделей. Во-вторых, данные всегда содержат ошибки измерения, и бинаризация данных может уменьшить влияние этих ошибок. Один из распространенных подходов кроме бинаризации числовых признаков основан на алгоритме k-средних. (Подход k-средних выходит за рамки этой статьи.) Другой вариант взять диапазон числовых переменных и разделить их на интервалы одинакового размера. Этот подход, позволяет сделать размер разбиений равным, но количество наблюдений в каждом кластере может сильно различаться. Примером этого является разделение возраста людей на пять или десять лет. В случае с возрастом, если большинству людей от двадцати до тридцати, объединение в кластеры по десять или даже по пять лет
Машинное обучение три способа работы с числовыми пизнаками.
20 марта 202220 мар 2022
232
3 мин