2K+ 浏览量
由于适用数据范围的多样性和数据值频繁更新,为数值属性定义概念层次结构非常复杂且费力。数值数据概念层次生成的各种方法如下:分箱 - 分箱是一种基于定义数量的箱的自上而下的拆分技术。这些方法也用作数值减少和概念层次生成的离散化方法。这些技术可以递归地应用于生成的划分以创建概念层次结构。分箱不使用类数据,因此是一种无监督的离散化技术。它… 阅读更多
5K+ 浏览量
数据离散化技术可用于通过将属性的范围划分为区间来减少给定连续属性的值的数量。可以使用区间标签来恢复实际数据值。它可以将连续属性的多个值用少量区间标签恢复,从而减少和简化原始信息。这导致了简洁、易用、知识级别的挖掘结果表示。离散化技术可以根据离散化的实现方式进行分类,例如它是否使用类数据或它进行的方向(即自上而下与自下而上)。如果… 阅读更多
715 浏览量
降维在降维中,数据编码或转换用于访问原始数据的简化或“压缩”表示。如果原始数据可以从压缩数据中重建而没有任何数据丢失,则数据减少称为无损。如果重建的数据只是原始数据的近似值,则数据减少称为有损。DWT 与离散傅里叶变换 (DFT) 密切相关,DFT 是一种包含正弦和余弦的信号处理技术。一般来说,DWT 可以实现更好的有损压缩。也就是说,如果为 DWT 保留了相似数量的系数… 阅读更多
1K+ 浏览量
在数值归约中,通过选择替代的、更小的数据表示形式来减少数据量。这些技术可能是参数化的或非参数化的。对于参数化方法,使用模型来估计数据,以便只需要存储数据参数,而不是实际数据,例如,对数线性模型。非参数化方法用于存储数据的简化表示,包括直方图、聚类和抽样。以下是数值归约的技术:回归和对数线性模型 - 这些模型可用于近似给定数据。在… 阅读更多
在降维中,应用数据编码或转换以获得原始数据的简化或“压缩”表示。如果原始数据可以从压缩数据中重建而没有任何信息丢失,则数据减少称为无损。如果重建的数据只是原始数据的近似值,则数据减少称为有损。以下是两种有损归约方法:小波变换 - 离散小波变换 (DWT) 是一种线性信号处理技术,当应用于数据向量 X 时,将其转换为数值不同的向量 X',… 阅读更多
3K+ 浏览量
属性子集选择通过消除不相关或冗余的属性(或维度)来减少数据集大小。属性子集选择旨在发现一组最小的属性,以便数据的类概率分布尽可能接近使用所有属性访问的原始分布。在减少的属性集上进行数据挖掘具有额外的优势。它减少了发现的模式中出现的多个属性,有助于使模式更容易理解。对于 n 个属性,有 2n 个可能的子集。对属性的最优子集进行穷举搜索可能非常昂贵,… 阅读更多
4K+ 浏览量
数据挖掘应用于大型数据库中的选定数据。当对大量数据进行数据分析和挖掘时,处理需要很长时间,这使得它不切实际且不可行。它可以减少数据分析的处理时间,数据缩减技术用于获得数据集的缩减表示,该表示在体积上要小得多,同时保持原始数据的完整性。通过减少数据,可以提高数据挖掘过程的效率,从而产生相同的分析结果。数据归约旨在定义… 阅读更多
在数据转换中,数据被转换或组合成适合挖掘的形式。数据转换可能涉及以下内容:平滑 - 它可以用于消除数据中的噪声。此类方法包括分箱、回归和聚类。聚合 - 在聚合中,对数据应用汇总或聚合操作。例如,可以聚合每日销售数据以计算每月和每年的总金额。此阶段通常用于创建数据立方体,以便在多个粒度级别上分析数据。泛化 - 在泛化中,将低级或“原始”(原始)数据恢复为更高级别的概念… 阅读更多
数据集成是将来自多个不同来源的数据组合在一起的阶段。在实现数据集成时,它应该处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种数据预处理技术,包括将来自多个异构数据源的数据合并成连贯的数据,以保留和支持信息的综合视角。它将来自各种来源的数据组合到一个连贯的数据存储中,包括在数据仓库中。这些来源可能包括多个数据库、数据立方体或平面文件等。在数据集成期间需要考虑多个问题。模式集成和对象匹配可能很复杂。对于… 阅读更多
15K+ 浏览量
数据清洗是指通过填充缺失值、平滑噪声数据、分析和去除异常值以及消除数据中的不一致性来清理数据。有时,多级细节的数据可能与所需的数据不同,例如,它可能需要 20-30、30-40、40-50 的年龄范围,而导入的数据包含出生日期。数据可以通过将数据拆分为适当的类型来清理。数据清理类型有以下几种数据清理类型:缺失值 - 缺失值用适当的值填充。以下是一些方法… 阅读更多