Дерево принятия решений — средство поддержки принятия решений, использующееся в машинном обучении, анализе данных и статистике, используют, чтобы разделить большой объём входных данных на относительно небольшие группы и прогнозировать наступление события в зависимости от определённых условий.
Решающие деревья (decision trees) — это семейство моделей машинного обучения, которые предсказывают значение целевой переменной с помощью применения последовательности простых решающих правил (предикатов).
Этот процесс в некотором смысле согласуется с естественным для человека процессом принятия решений.
Хотя обобщающая способность решающих деревьев невысока, их предсказания вычисляются довольно просто, из-за чего решающие деревья часто используют как кирпичики для построения ансамблей — моделей, делающих предсказания на основе агрегации предсказаний других моделей.
Примеры использования деревьев решений:
1. Классификация.
Определение класса или категории объектов на основе их характеристик. Например, можно использовать дерево решений для определения, является ли электронное письмо спамом или нет, на основе содержания и других атрибутов письма.
2. Регрессия.
Предсказание численных значений на основе данных. Например, можно использовать дерево решений для предсказания стоимости дома на основе его размера, местоположения и других характеристик.
3. Кластеризация.
Выявление групп или кластеров объектов с похожими характеристиками. Например, можно использовать дерево решений для группировки клиентов по их покупательскому поведению, интересам и другим атрибутам.
Структура дерева решений
начинается с корневого узла, который по ветвям ведёт к ряду внутренних узлов и листьев:
- Корневой узел — начальная точка. В ней задаётся основной вопрос, ставится первая задача, от которой ветви пойдут к следующим.
- Узел, или внутренний узел — задаёт следующий вопрос или ставит условие. От ответа зависит, по какой ветке следовать дальше.
- Ветвь — это путь, ведущий к следующему узлу или листу.
- Лист — конечный результат, «ответ» на поставленный в начале вопрос, где дерево решений заканчивается.