树修剪的方法有哪些?
修剪是缩小决策树尺寸的过程。可以通过确定树的尺寸或消除支持较小功能的树的区域来降低过度拟合的风险。修剪通过修剪因噪声或异常值在训练信息中出现的异常分支,以提高树的泛化效率的方式来支持原始树。
各种方法通常使用统计措施来删除最不可靠的部门,通常可以加快分类速度,并提高树正确分类独立测试数据的功能。
树修剪有以下两种方法:
预修剪方法
在预修剪方法中,通过尽早完成树的构建(例如,确定不再在给定节点处进一步划分或分割训练样本的子集)来“修剪”树。经过停止后,该节点变为叶节点。该叶节点会影响子集样本中最常见的类别或那些样本的概率分布。
创建树时,可以使用诸如统计显著性、x2、信息增益等的度量来创建分割的宽宏性。如果在某个节点处对样本进行分区会导致分割低于预先指定的门槛,那么对给定子集的分割就会停止。选择适当的门槛存在问题。高门槛会导致树过于简单,而低门槛会导致简化程度极低。
后剪枝方法
后剪枝方法从“完全成长”的树中删除分支。通过移除其分支来剪修树节点。价格复杂度剪枝算法是后剪枝方法的一个实例。被剪的节点变成了叶节点,并由其先前分支之间的最常见类标记。
对于树中的每个非叶节点,该算法计算如果该节点处的子树被缩短后可能出现的预期错误率。接下来,通过根据沿每个分支的观察维度加权连接每个分支的错误率来计算如果节点未被剪枝而出现的预期错误率。如果剪枝节点导致更高的预期错误率,则保留子树。因此,它被剪枝了。
在创建了一组越来越多的剪枝树后,一个独立的测试集可以估算每棵树的效率。最能降低预期错误成本的决策树是首选。
广告