#machine learning #анализ данных #python #sklearn Существует несколько способов преобразовать категории в числа, каждый из них имеет свои плюсы и минусы. Выбор метода зависит от типа и смысла ваших данных, мощности множества категорий, алгоритма машинного обучения. Ниже приведена схема, как выбрать подходящий метод кодирования. Рассмотрим наиболее популярные методы преобразования категорий в числа. Самый простой способ – обычная нумерация значений (0, 1, 2, …). У данного подхода есть существенный недостаток. Обычно он ведет к плохому результату так как, алгоритмы начинают учитывать бессмысленную упорядоченность значений признаков. Однако данный метод имеет преимущество с точки зрения памяти. Метод реализован в классе sklearn.preprocessing.LabelEncoder. import pandas
from sklearn.preprocessing import LabelEncoder
df = pandas.read_excel('Пример данных.xls')
le = LabelEncoder()
le.fit(df['Категория'])
df['Категория_le']=le.transform(df['Категория'])
df Следующий способ – dummy-кодировани