决策树如何用于分类？

数据挖掘数据库数据结构

决策树归纳是从带类标签的训练元组中学习决策树的过程。决策树是一种类似图表顺序的树形结构，其中每个内部节点（非叶节点）表示对属性的测试，每个分支定义测试的结果，每个叶节点（或终端节点）代表一个类标签。树中最高的节点是根节点。

它定义了“购买计算机”的概念，即预测AllElectronics的用户是否可能购买计算机。内部节点用矩形表示，叶节点用椭圆表示。各种决策树算法只创建二叉树（其中每个内部节点精确地分支到另外两个节点），而其他算法可以创建非二叉树。

给定一个元组X，其相关类标签是匿名的，元组的属性值将与决策树进行比较。从根节点到叶节点跟踪一个方向，该方向会影响该元组的类预测。决策树可以转换为分类规则。

决策树分类器的开发不需要一些领域知识或参数设置，因此适用于探索性知识发现。

决策树可以处理高维数据。它们以树的形式描述获得的知识，直观易懂。决策树归纳的学习和分类阶段简单快捷。

一般来说，决策树分类器效率高。但是，成功的应用取决于手头的数据。决策树归纳算法已用于多个应用领域的分类，包括医学、制造和生产、货币分析、天文学和分子生物学。决策树基于多个商业规则归纳系统。

在树构建过程中，属性选择度量用于选择最能将元组划分到不同类别的属性。当构建决策树时，一些分支可能反映训练记录中的噪声或异常值。树剪枝试图识别和消除此类分支，目的是提高对未见数据的分类精度。

ID3、C4.5和CART采用贪婪（即非回溯）方法，其中决策树以自顶向下的递归分治法构建。几种决策树归纳算法也遵循这种自顶向下的方法，它从训练元组集合及其相关的类标签开始。在构建树的过程中，训练集合被递归地划分为更小的子集。

基尼指数

更新于：2022年2月16日

1K+ 次浏览

启动你的职业生涯

完成课程获得认证

广告

© . All rights reserved.