2 года назад
Частотное кодирование факторных колонок
Важной задачей при построении моделей машинного обучения является перевод факторных колонок в числа. Наиболее частым способом является one-hot энкодинг, о котором я рассказывал ранее. В случае большого количества категорий такой способ может привести к переобучению модели, поэтому рассматривают другие приемы. При этом прибегают как к использованию грубых путей как порядковое кодирование, так и попыткам ухватит дополнительную информацию, которую могут нести категории. В частности, ею может быть абсолютная или относительная частота встречаемости значений колонки...
9 месяцев назад
Прямое кодирование в машинном обучении
Прямое кодирование представляет собой способ преобразования категориальных признаков в численные. Используется в машинном обучении, в том числе подходит для логистической регрессии, когда все признаки должны стать количественными. Рассмотрим на примерах. Преобразуйте колонку Gender техникой OHE...