Только полное осознание своей значимости — поможет вам лучше осознать значимость других (Петр Квятковский).
Рассмотрим, как извлечь и визуализировать значимость признаков для модели машинного обучения. Загрузим тренировочный набор данных:
Делить на выборки датасет не будем, так как для наших целей понадобится только один тренировочный набор. Обучим на нем решающее дерево:
Теперь обратимся к свойству или методу (в разных библиотеках по-разному), отражающему значимость признаков для этой обученной модели. Кстати, если не помните точное название, воспользуйтесь методом исследования объектов, о котором я рассказывал ранее, ориентируйтесь на ключевое слово 'feature' или 'importance':
Вот оно:
В качестве бонуса нашел свойство, содержащее наименование входных признаков (обычно получал через обращение к атрибуту columns в матрице признаков):
Теперь можно воспользоваться любым методом отображения столбчатой диаграммы (намеренно буду использовать разные):
Обычно, особенно когда признаков много, их упорядочивают по значимости и выводят несколько ключевых:
А так можно вывести n самых важных:
Если категорий много удобнее выводить горизонтальную диаграмму. Покажем как это делать с Pandas: