数值数据的离散化和概念层次生成技术有哪些?
由于适用数据范围广泛且数据值频繁更新,因此为数值属性定义概念层次结构非常复杂且费力。数值数据概念层次生成的各种方法如下:
分箱法 (Binning) − 分箱法是一种基于定义数量的箱子的自顶向下分割技术。这些方法也用作减少数量和生成概念层次结构的离散化方法。这些技术可以递归应用于所得分区以创建概念层次结构。分箱法不使用类别数据,因此是一种无监督的离散化技术。它容易受到用户指定箱子数量和异常值存在的影响。
直方图分析 − 与分箱法类似,直方图分析是一种无监督的离散化技术,因为它不使用类别数据。直方图将属性 A 的值划分为不相交的范围,称为桶。例如,在等宽直方图中,值被划分为大小相等的分区或价格范围,其中每个桶的宽度为 10 美元。在等频直方图中,值被划分为每个分区包含相同数量的数据元组的分区。
可以递归地将直方图分析算法应用于每个分区,以自动生成多级概念层次结构,该过程在达到预先指定数量的概念级别后终止。
也可以为每个级别使用最小区间大小来控制递归过程。这指定了每个级别分区的最小宽度或每个分区的最小值数量。
基于熵的离散化 − 熵通常用作离散化度量。它最初由克劳德·香农在其关于信息论和信息增益概念的开创性工作中引入。
基于熵的离散化是一种有监督的自顶向下分割技术。它在其计算和分割点(用于划分属性范围的数据值)的确定中探索类别分布数据。
聚类分析 − 聚类分析是一种流行的数据离散化方法。可以通过将 A 的值划分为集群或组来应用聚类算法对数值属性 A 进行离散化。
聚类考虑 A 的分布以及数据点的接近程度,因此可以产生高质量的离散化结果。可以通过遵循自顶向下分割策略或自底向上合并策略来使用聚类为 A 生成概念层次结构,其中每个集群形成概念层次结构的一个节点。
广告