什么是属性选择度量?


属性选择度量是一种启发式方法,用于选择“最佳”分离给定数据分区 D(包含类标记的训练元组)为单一类的分割测试。

如果它可以根据分割标准的结果将 D 分割成更小的分区,理想情况下,每个分区都可以是纯的(即,落入给定分区的一些元组可以属于同一类)。

从概念上讲,“最佳”分割标准最接近于产生这种方法的结果。属性选择度量称为分割规则,因为它们决定了如何划分给定节点处的元组。

属性选择度量支持对定义给定训练元组的每个属性进行排序。具有最佳度量方法的属性被选为给定元组的分割属性。

如果分割属性是常量值,或者如果它被限制为二叉树,则相应地,还应将分割点或分割子集确定为分割标准的一部分。

为分区 D 生成的树节点用分割标准标记,为标准的每个结果增加分支,并相应地隔离元组。有三种著名的属性选择度量,包括信息增益、增益率和基尼指数。

信息增益 - 信息增益用于确定提供关于类的最大信息量的最佳特征/属性。它遵循熵的方法,同时旨在降低熵的水平,从根节点到叶节点。

令节点 N 定义或保存分区 D 的元组。具有最大信息增益的属性被选为节点 N 的分割属性。此属性最大程度地减少了定义结果子分区中元组所需的数据,并反映了这些子分区中最小程度的随机性或“不纯度”。

增益率 - 信息增益度量存在偏差,倾向于具有多个结果的测试。它可以选择具有大量值的属性。例如,考虑一个用作唯一标识符的属性,例如产品 ID。

对产品 ID 进行分割会导致大量分区,每个分区只包含一个元组。因为每个分区都是唯一的,所以根据此分区定义数据集 D 所需的数据将是 Infoproduct_ID(D) = 0。

基尼指数 - 基尼指数可用于 CART。基尼指数计算 D(数据分区或训练元组集合)的不纯度,如下所示:

$$\mathrm{Gini(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$

其中 pi 是 D 中的元组属于类 Ci 的概率,并通过 |Ci,D|/|D| 计算得出。

更新于: 2022-02-16

25K+ 浏览量

启动您的 职业生涯

通过完成课程获得认证

开始学习
广告