Найти тему
Машинное обучение

🌴🌲🌳Деревья решений: краткий ликбез

Деревья решений – это один из наиболее широко используемых и практичных методов обучения с учителем. Они строятся с помощью алгоритмического подхода, который определяет способы разделения набора данных на основе различных условий. Деревья решений являются непараметрическими контролируемыми методами обучения и отлично подходят для работы с табличными данными, задач классификации и регрессии. Они помогают создать модель, которая предсказывает значение целевой переменной, изучая простые правила принятия решений, выведенные из характеристик данных.

Дерево решений работает как для непрерывных, так и для категориальных выходных данных. Алгоритм учится на простых правилах принятия решений, используя различные функции данных. В деревьях решений для классификации модель задает правильные вопросы в нужном узле, чтобы дать точную и эффективную классификацию с использованием энтропии и прироста информации. Энтропия — это мера неопределенности или случайности в наборе данных. Энтропия обрабатывает то, как дерево решений разбивает данные. Прирост информации измеряет снижение энтропии после разделения набора данных. Индекс Джини используется для определения правильной переменной для разделения узлов. Он измеряет, как часто случайно выбранная переменная будет неправильно идентифицирована.

Корневой узел всегда является верхним узлом дерева решений. Он представляет всю совокупность или выборку данных и может быть дополнительно разделен на различные наборы. А дочерние узлы решений содержат не менее двух ветвей. Листовой узел в дереве решений содержит окончательные результаты. Эти узлы, также известные как конечные узлы, не могут быть разделены дальше.

Метод применим для определения вероятности дефолта заявителя по кредиту, развития у человека определенного заболевания, определения показателей оттока клиентов и предсказания покупки товаров.

Преимущества использования деревьев решений:

• просты для понимания, интерпретации и визуализации.

• могут эффективно обрабатывать как числовые, так и категориальные данные.

• могут определить наихудшие, наилучшие и ожидаемые значения для нескольких сценариев.

• требуют небольшой подготовки данных и нормализации данных

• работают хорошо, даже если фактическая модель нарушает предположения

Недостатки метода:

• Переобучение, которое случается, когда алгоритм обучения продолжает разрабатывать гипотезы, снижающие ошибку обучающего набора данных за счет увеличения ошибки тестового датасета. Эту проблему можно решить, обрезав и установив ограничения на параметры модели.

• нельзя использовать с непрерывными числовыми переменными.

• Небольшое изменение данных приводит к большим различиям в древовидной структуре, что вызывает нестабильность.

https://blog.devgenius.io/decision-tree-regression-in-machine-learning-3ea6c734eb51

Machine learning Interview

#машинноеобучение #deeplearning