什么是数据离散化?
数据离散化技术可用于通过将属性的范围划分为区间来减少给定连续属性的值的数量。可以使用区间标签来恢复实际数据值。它可以将连续属性的多个值用少量区间标签恢复,从而减少并简化原始信息。
这导致了简洁、易用、知识级别的挖掘结果表示。离散化技术可以根据离散化的实现方式进行分类,例如它是否使用类数据或其进行的方向(即自上而下与自下而上)。如果离散化过程使用类数据,则可以说它是监督离散化。因此,它是无监督的。
如果该过程首先通过发现一个或几个点(称为分割点或切割点)来分割整个属性范围,然后在所得区间上递归地继续此过程,则称为自上而下离散化或分割。
在自下而上离散化或合并中,它可以从将所有连续值视为潜在分割点开始,通过合并邻域值形成区间来删除一些值,然后将此过程递归地应用于所得区间。可以对属性递归地实现离散化,以支持属性值的层次或多分辨率分区,称为概念层次结构。
概念层次结构对于在多个抽象级别进行挖掘很有用。给定数值属性的概念层次结构表示该属性的离散化。概念层次结构可用于通过用更高级别概念(包括青年、中年或老年)收集和恢复低级别概念(包括属性年龄的数值)来减少数据。尽管此类数据概括隐藏了细节,但概括后的数据可能更有意义且更易于执行。
这为多个挖掘任务中的数据挖掘结果提供了前后一致的描述,这是一个常见的要求。此外,在缩减的数据集上挖掘所需的输入/输出操作更少,并且比在更高、未泛化的数据集上挖掘更有效。由于这些优点,离散化技术和概念层次结构通常用作数据挖掘之前的预处理步骤,而不是在挖掘过程中。
可以使用多种离散化方法来自动生成或动态细化数值属性的概念层次结构。此外,分类属性的许多层次结构都隐含在数据库设计中,并且可以在模式定义级别自动表示。
广告