123 читали · 2 года назад
Категориальные признаки в машинном обучении
#machine learning #анализ данных #python #sklearn Существует несколько способов преобразовать категории в числа, каждый из них имеет свои плюсы и минусы. Выбор метода зависит от типа и смысла ваших данных, мощности множества категорий, алгоритма машинного обучения. Ниже приведена схема, как выбрать подходящий метод кодирования. Рассмотрим наиболее популярные методы преобразования категорий в числа. Самый простой способ – обычная нумерация значений (0, 1, 2, …). У данного подхода есть существенный недостаток...
193 читали · 2 года назад
Метод SHAP для категориальных признаков
Источник: Nuances of Programming Категориальные признаки необходимо преобразовывать, прежде чем использовать их в модели. Зачастую это делается с помощью прямого кодирования  —  в итоге получаем бинарную переменную для каждой категории. Проблемы не возникают до попытки понять модель с помощью метода SHAP. Каждая бинарная переменная будет иметь свое собственное значение SHAP. Это затрудняет понимание общего вклада исходного категориального признака. Для решения этой проблемы используется простой подход  —  сложение значений SHAP для каждой бинарной переменной...