决策树归纳法的特点是什么?
决策树归纳法有以下几个特点:
决策树归纳法是一种构建分类模型的非参数方法。换句话说,它不需要对类和不同属性满足的概率分布类型进行任何先验假设。
寻找最优决策树是一个NP完全问题。许多决策树算法采用基于启发式的方法来指导其在巨大的假设空间中的搜索。
已经开发出各种技术来构建计算代价低的决策树,即使训练集规模非常大,也能快速构建模型。此外,一旦构建了决策树,定义测试数据就非常快,最坏情况下的复杂度为O(w),其中w是树的最大深度。
决策树,特别是较小的树,易于解释。在许多数据集上,树的效率也与几种分类方法相当。
决策树支持对学习离散值函数的表达性描述。但它们不能很好地推广到某些类型的布尔问题。例如,奇偶校验函数,当有奇数(偶数)个值为True的布尔属性时,其值为0(1)。
冗余属性的存在不会影响决策树的有效性。如果一个属性与数据中的另一个属性高度相关,则该属性是冗余的。不能使用两个冗余属性进行划分,因为另一个属性已被选择。
但是,如果数据集包含多个无关属性(即对分类任务没有帮助的属性),则在树的生长过程中可能会意外地选择多个无关属性,从而导致决策树比必要的更大。特征选择技术可以通过在预处理过程中消除无关属性来帮助提高决策树的精度。
由于许多决策树算法使用自顶向下递归划分方法,因此数据量在向下遍历树时会越来越小。在叶节点处,数据量可能太小,无法对节点的类别描述做出具有统计意义的决策。这就是所谓的“数据碎片问题”。一种可能的解决方案是在数据量低于特定阈值时禁止进一步分裂。
子树可以在决策树中重复多次。这使得决策树比必要的更难理解,也可能更难执行。决策树的执行效率可能会受到每个内部节点只依赖于单个属性测试条件的影响。
一些决策树算法需要分治划分方法,相同的测试条件可以应用于属性空间的多个部分,从而导致子树复制问题。