什么是C5剪枝算法?
C5是澳大利亚研究员J. Ross Quinlan多年来一直在开发和改进的决策树算法的当前版本。之前的版本ID3(成立于1986年)在机器学习领域具有影响力,其后续版本被用于多种商业数据挖掘服务。
C5生成的树与CART改进的树相同。与CART一样,C5算法首先生成一个过拟合树,然后对其进行剪枝以创建更有效的模型。剪枝方法很复杂,但C5不使用验证集来选择候选子树。
用于生成树的相同数据也用于确定如何剪枝。这反映了该算法在学术界的根基,在过去,大学研究人员很难获得大量的真实数据用于训练集。因此,他们花费大量时间和精力试图从他们有限的数据集中提取尽可能多的信息——这是商业世界的数据挖掘人员不会遇到的问题。
C5通过确定每个节点的错误率并认为真实错误率可能更糟来剪枝。如果N条记录出现在一个节点上,其中E条记录被错误分类,那么该节点的错误率为E/N。
C5需要一个与统计抽样的类比来估计叶节点上可能出现的最大错误成本。这个类比通过将叶节点的信息视为一系列试验的结果来进行,每次试验都有两种可能的结果。
C5认为在训练数据上观察到的错误数量是这个范围的下限,并用上限来获得叶节点在未见数据上的预测错误成本E/N。节点越低,错误成本越高。当节点上多个错误的高端估计值小于其子节点的错误估计值时,则剪枝子节点。
模型的主要目标是在以前未见过的数据上做出一致的预测。任何无法实现该目标的规则都应该从模型中移除。一些数据挖掘工具允许用户手动剪枝决策树。
这是一个有用的功能,但人们可以期待数据挖掘软件支持基于数据的自动剪枝作为一个选项。这样的应用程序需要比“验证集结果的分布与训练集结果的分布不同”更客观的标准来拒绝一个分割。
广告