2K+ 次浏览
由于适用数据范围的多样性和数据值频繁更新,为数值属性定义概念层次结构既复杂又费力。数值数据概念层次生成的各种方法如下:分箱法 - 分箱法是一种基于定义的箱数的自上而下的分割技术。这些方法也用作数值约简和概念层次生成的离散化方法。这些技术可以递归地应用于生成的划分以创建概念层次结构。分箱法不使用类数据,因此是一种无监督的离散化技术。它…… 阅读更多
5K+ 次浏览
数据离散化技术可用于通过将属性的范围划分为区间来减少给定连续属性的值的数量。可以使用区间标签来恢复实际数据值。它可以将连续属性的多个值用少量区间标签来恢复,从而减少并简化原始信息。这导致对挖掘结果进行了简洁易用的知识级别表示。离散化技术的分类取决于离散化的实现方式,例如它是否使用类数据或其进行的方向(即自上而下与自下而上)。如果…… 阅读更多
715 次浏览
降维在降维中,使用数据编码或转换来访问原始数据的简化或“压缩”表示。如果可以从压缩数据中重建原始数据而不会丢失任何数据,则数据缩减称为无损的。如果重建的数据只是原始数据的近似值,则数据缩减称为有损的。DWT 与离散傅里叶变换 (DFT) 密切相关,DFT 是一种包含正弦和余弦的信号处理技术。通常,DWT 可以实现更好的有损压缩。也就是说,如果为 DWT 保持相似数量的系数…… 阅读更多
1K+ 次浏览
在数值约简中,通过选择替代的、更小的数据表示形式来减少数据量。这些技术可能是参数的或非参数的。对于参数方法,使用模型来估计数据,因此只需要存储数据参数,而不是实际数据,例如对数线性模型。非参数方法用于存储数据的简化表示,包括直方图、聚类和抽样。数值约简的技术如下:回归和对数线性模型 - 这些模型可用于近似给定数据。在…… 阅读更多
在降维中,应用数据编码或转换以获得原始数据的简化或“压缩”表示。如果可以从压缩数据中重建原始数据而不会丢失任何信息,则数据缩减称为无损的。如果重建的数据只是原始数据的近似值,则数据缩减称为有损的。有损约简的两种方法如下:小波变换 - 离散小波变换 (DWT) 是一种线性信号处理技术,当应用于数据向量 X 时,将其转换为数值不同的向量 X’…… 阅读更多
3K+ 次浏览
属性子集选择通过消除不相关或冗余属性(或维度)来减少数据集大小。属性子集选择的目的是发现一组最小的属性,使得所得数据类的概率分布尽可能接近使用所有属性访问的原始分布。在简化的属性集上进行数据挖掘具有额外的好处。它减少了已发现模式中出现的多个属性,从而使模式更容易理解。对于 n 个属性,有 2n 个可能的子集。对属性的最佳子集进行穷举搜索可能非常昂贵…… 阅读更多
4K+ 次浏览
数据挖掘应用于大型数据库中的选定数据。当对大量数据进行数据分析和挖掘时,处理时间非常长,这使得它不切实际且不可行。为了减少数据分析的处理时间,使用数据约简技术来获得数据集的简化表示,该表示在体积上要小得多,同时保持原始数据的完整性。通过减少数据,提高了数据挖掘过程的效率,从而产生了相同的分析结果。数据约简旨在定义…… 阅读更多
在数据转换中,数据被转换或组合成适合挖掘的形式。数据转换可能包括以下内容:平滑 - 它可以去除数据中的噪声。此类方法包括分箱、回归和聚类。聚合 - 在聚合中,对数据应用汇总或聚合操作。例如,可以聚合每日销售数据以计算每月和每年的总金额。此阶段通常用于创建用于在多个粒度级别分析数据的数据立方体。泛化 - 在泛化中,低级别或“原始”(原始)数据由更高级别的概念恢复…… 阅读更多
数据集成是将来自多个不同来源的数据组合的阶段。在实现数据集成时,它应该处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种数据预处理技术,它包括将来自许多异构数据源的数据合并成连贯的数据,以保留和支持对信息的综合视角。它将来自各种来源的数据组合到一个连贯的数据存储区中,包括数据仓库。这些来源可能包括多个数据库、数据立方体或平面文件等。在数据集成过程中需要考虑多个问题。模式集成和对象匹配可能很复杂。对于…… 阅读更多
15K+ 次浏览
数据清洗是指通过填充缺失值、平滑噪声数据、分析和去除异常值以及去除数据中的不一致性来清理数据。有时,多个详细级别的数据可能与所需的数据不同,例如,它可能需要 20-30、30-40、40-50 的年龄范围,而导入的数据包含出生日期。可以通过将数据拆分为适当的类型来清理数据。数据清洗的类型数据清洗的各种类型如下:缺失值 - 缺失值用适当的值填充。有以下方法…… 阅读更多