2 года назад
Частотное кодирование факторных колонок
Важной задачей при построении моделей машинного обучения является перевод факторных колонок в числа. Наиболее частым способом является one-hot энкодинг, о котором я рассказывал ранее. В случае большого количества категорий такой способ может привести к переобучению модели, поэтому рассматривают другие приемы. При этом прибегают как к использованию грубых путей как порядковое кодирование, так и попыткам ухватит дополнительную информацию, которую могут нести категории. В частности, ею может быть абсолютная или относительная частота встречаемости значений колонки...
1170 читали · 3 года назад
One-Hot Encoding в Машинном обучении простыми словами
Быстрое кодирование (One-Hot Encoding) – процесс, с помощью которого категориальные переменные преобразуются в подходящую ​​алгоритмам Машинного обучения (ML) форму. Первое, что вы делаете при создании любой Модели (Model), – это, как правило, предварительная подготовка данных (Data Preparation). Мы еще не достигли такого уровня ИИ, чтобы просто передать модели таблицу и ожидать точных предсказаний. Большая часть предварительной обработки – это кодирование в понятный компьютеру язык чисел. Отсюда и название 'encode', что буквально означает «преобразовать в [компьютерный] код»...