什么是基于熵的离散化?


基于熵的离散化是一种监督的、自顶向下的分割方法。它在计算和保留分割点(用于分离属性范围的数据值)时,会探索类分布数据。它可以离散化一个统计属性 A,该方法选择熵最小的 A 值作为分割点,并递归地划分结果区间以出现在分层离散化中。

特定的离散化形成了 A 的概念层次结构。假设 D 包含由一组属性和一个类标签属性描述的数据元组。类标签属性支持每个元组的类数据。基于熵的属性 A 在集合内部的离散化的基本方法如下:

A 的每个值都可以被视为一个潜在的区间边界或分割点(指示分割点)来划分 A 的范围。也就是说,A 的分割点可以将 D 中的元组划分为两个子集,分别满足 A ≤ 分割点和 A > 分割点条件,从而形成二元离散化。

基于熵的离散化使用有关元组类标签的数据。它可以定义基于熵的离散化的直觉,它应该对分类有一个了解。假设需要通过对属性 A 和一些分割点进行分区来定义 D 中的元组。

例如,如果我们有两个类,可以希望一些元组(例如,类 C1)会下降到一个分区中,而一些类 C2 的元组会下降到另一个分区中。但这不太可能。例如,第一个分区可以包含几个 C1 的元组,但也包含一些 C2 的元组。此数量称为基于 A 进行分区时,定义 D 中元组的预期数据需求。它由下式给出:

$$\mathrm{Info_A(D)\:=\:\frac{\mid\:D_1\:\mid}{\mid\:D\:\mid}Entrophy(D_1)\:+\:\frac{\mid\:D_2\:\mid}{\mid\:D\:\mid}Entrophy(D_2)}$$

其中 D1 和 D2 分别对应于 D 中满足条件 A ≤ 分割点和 A > 分割点 的元组;|D| 是 D 中元组的数量,等等。给定集合的熵值是根据集合中元组的类分布计算的。

例如,给定 m 个类,C1、C2…Cm,D1 的熵为:

$$\mathrm{Entrophy(D_1)}\:=\:-\displaystyle\sum\limits_{i=1}^m P_i{\log_{2}(P_i)}$$

确定分割点的阶段递归地应用于获得的每个分区,直到满足某些停止条件,包括当所有学生分割点的最小数据需求小于一个小阈值 ε,或者当区间数量大于阈值 max_interval 时。

更新于: 2022年2月16日

2K+ 浏览量

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告