属性子集选择的基本方法是什么?


属性子集选择通过消除不相关或冗余的属性(或维度)来减少数据集的大小。属性子集选择的目的是发现一组最小的属性,使得所得的数据类别的概率分布尽可能接近使用所有属性访问的原始分布。在减少的属性集上进行数据挖掘具有额外的优势。它减少了发现的模式中出现的多个属性,有助于使模式更易于理解。

对于 n 个属性,存在 2n 个可能的子集。对属性的最优子集进行穷举搜索可能非常昂贵,特别是当 n 和多个数据类别增加时。因此,经常使用探索减少搜索空间的启发式方法进行属性子集选择。

这些方法通常是贪婪的,因为在搜索属性空间时,它们总是做出当时看起来最好的选择。它们的策略是在希望这将导致全局最优解的情况下做出局部最优选择。这种贪婪方法在实践中是有效的,并且可以接近估计最优解。

最佳和最差属性通常使用统计显着性检验来确定,这些检验认为属性彼此独立。还可以使用其他一些属性评估度量,包括用于构建分类决策树的信息增益度量。

属性子集选择的方法如下:

  • **逐步前向选择** - 该过程从一个空属性集作为简化集开始。确定原始属性中最好的一个并将其添加到简化集中。在每个后续迭代或步骤中,将剩余原始属性中最好的一个插入到该集中。

  • **逐步后向消除** - 该过程从完整的属性集开始。在每一步中,它都会删除集合中剩余的最差属性。

  • **前向选择和后向消除的组合** - 可以将逐步前向选择和后向消除方法连接起来,以便在每一步中,该过程选择最佳属性并从剩余属性中消除最差属性。

  • **决策树归纳** - 包括 ID3、C4.5 和 CART 在内的决策树算法最初是为分类而设计的。决策树归纳构建了一个类似流程图的结构,其中每个内部(非叶)节点表示对属性的测试,每个分支对应于测试的结果,每个外部(叶)节点表示类预测。在每个节点上,算法选择“最佳”属性将数据划分为各个类。

更新于: 2021年11月19日

3K+ 浏览量

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告