Доленко С.А.-Машинное обучение - Лекция 7. Кодирование и нормировка данных. Анализ главных компонент
Категориальные признаки в машинном обучении
#machine learning #анализ данных #python #sklearn Существует несколько способов преобразовать категории в числа, каждый из них имеет свои плюсы и минусы. Выбор метода зависит от типа и смысла ваших данных, мощности множества категорий, алгоритма машинного обучения. Ниже приведена схема, как выбрать подходящий метод кодирования. Рассмотрим наиболее популярные методы преобразования категорий в числа. Самый простой способ – обычная нумерация значений (0, 1, 2, …). У данного подхода есть существенный недостаток...
Кодирование-декодирование категорий, когда чайник не работает
Для моделей машинного обучения важность представляют как признаки, имеющие числовой вид, так и текстовое представление. С последними работать немного тяжелее, но затраты окупаются дополнительной информацией, которая может повысить качество модели. В этой статье рассмотрим хороший способ кодирования/декодирования категориальных переменных, который каждому значению ставит в соответствие вектор с одной единицей и всеми нулями (размерности равной количеству уникальных значений в категории и с единицей в позиции соответствующей конкретному из множества всех значений)...