无监督离散化的几种方法是什么?
如果一个属性只有少量(有限的)可能的取值,则该属性是离散的;而连续属性则被认为具有大量(无限的)可能的取值。
换句话说,离散数据属性可以看作是一个范围为有限群的函数,而连续数据属性是一个范围为无限完全有序群(通常是一个区间)的函数。
离散化的目的是通过将连续属性划分为几个区间来减少连续属性可能取值的个数。解决离散化问题的方法有两种。一种是在没有训练类中实例类的某些知识的情况下量化每个属性,这被称为无监督离散化。
第二种是在离散化监督离散化时考虑类。在处理类未知或不存在的聚类问题时,前者是唯一可能性。
离散化数值属性的明显方法是将其范围划分为预定数量的等间隔区间:一个固定的、与数据无关的尺度。这通常在收集信息时完成。
在无监督离散化方法中,它存在这样的风险:通过使用过于粗略的等级或通过边界的相反选择不必要地将多个类的多个实例组合在一起,从而破坏在学习过程中本来会很有益的区别。
**等宽分箱法通常会使实例分布非常不均匀**——有些箱包含多个实例,而另一些箱则不包含任何实例。这会严重损害属性帮助构建良好决策结构的能力。最好允许区间大小不同,选择它们以便每个区间中都包含相似数量的训练样本。
这种方法被称为等频分箱法,它根据沿该轴的实例分布将属性的范围划分为预定的几个箱,有时也称为直方图均衡化,因为如果它可以获取生成的箱文本的直方图,它通常是平坦的。如果它可以将多个箱视为资源,则此方法可以最好地利用它。
等频分箱法与实例的类别无关,这可能会产生不良边界。例如,如果某个箱中的某些实例属于一个类别,而下一个较大箱中的某些实例属于另一个类别,除了第一个实例属于初始类别外,当然有理由尊重类别划分并将第一个实例包含在较早的箱中,牺牲相同的频率属性以换取同质性的好处。
广告