1K+ 浏览量
在数据量缩减中,通过选择一种替代的、更小的数据表示形式来减少数据量。这些技术可能是参数化的或非参数化的。对于参数化方法,使用模型来估计数据,因此只需要存储数据参数,而不是实际数据,例如,对数线性模型。非参数化方法用于存储数据的简化表示,包括直方图、聚类和抽样。以下是数据量缩减的技术:回归和对数线性模型 - 这些模型可用于近似给定数据。在 ... 阅读更多
2K+ 浏览量
在维度缩减中,应用数据编码或转换以获得原始数据的简化或“压缩”表示。如果可以从压缩数据中重建原始数据而没有任何信息丢失,则数据缩减称为无损缩减。如果重建的数据只是原始数据的近似值,则数据缩减称为有损缩减。以下是两种有损缩减方法:小波变换 - 离散小波变换 (DWT) 是一种线性信号处理技术,当应用于数据向量 X 时,将其转换为数值不同的向量 X',... 阅读更多
3K+ 浏览量
属性子集选择通过消除不相关或冗余的属性(或维度)来减少数据集的大小。属性子集选择旨在发现最小的属性集,使得所得数据类的概率分布尽可能接近使用所有属性访问的原始分布。在减少的属性集上进行数据挖掘具有额外的优势。它减少了发现的模式中出现的多个属性,有助于使模式更易于理解。对于 n 个属性,有 2n 个可能的子集。对属性的最佳子集进行穷举搜索可能非常昂贵,... 阅读更多
4K+ 浏览量
数据挖掘应用于大型数据库中的选定数据。当对大量数据进行数据分析和挖掘时,处理时间非常长,这使其变得不切实际且不可行。为了减少数据分析的处理时间,数据规约技术用于获得数据集的简化表示,其数据量要小得多,同时保持原始数据的完整性。通过减少数据,提高了数据挖掘过程的效率,从而产生相同的分析结果。数据规约旨在定义 ... 阅读更多
在数据转换中,数据被转换为或组合成适合挖掘的形式。数据转换可能包括以下内容:平滑 - 它可以去除数据中的噪声。此类方法包括分箱、回归和聚类。聚合 - 在聚合中,对数据应用汇总或聚合操作。例如,可以聚合每日销售数据以计算每月和每年的总金额。此阶段通常用于为在多个粒度级别分析数据创建数据立方体。泛化 - 在泛化中,将低级或“原始”(原始)数据还原为更高级别的概念 ... 阅读更多
数据集成是将来自多个不同来源的数据组合在一起的阶段。在实施数据集成时,它应该处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种数据预处理技术,包括将来自多个异构数据源的数据合并成连贯的数据,以保留和支持对信息的统一视角。它将来自各种来源的数据组合到一个连贯的数据存储中,包括数据仓库。这些来源可能包括多个数据库、数据立方体或平面文件等。在数据集成期间,需要考虑多个问题。模式集成和对象匹配可能很复杂。对于 ... 阅读更多
15K+ 浏览量
数据清洗定义为通过填充缺失值、平滑噪声数据、分析和去除异常值以及消除数据中的不一致性来清理数据。有时,多个详细级别的数据可能与所需的不同,例如,它可能需要 20-30、30-40、40-50 的年龄范围,而导入的数据包含出生日期。可以通过将数据拆分为适当的类型来清理数据。数据清洗类型以下是各种数据清洗类型:缺失值 - 缺失值用适当的值填充。以下是 ... 阅读更多
5K+ 浏览量
数据挖掘是通过共享存储在存储库中的大量数据,使用包括统计和数学技术在内的模式识别技术,查找有用的新关联、模式和趋势的过程。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者而言既合乎逻辑又有帮助的新颖方式总结记录。它是选择、探索和建模大量信息以查找最初未知的规律或关系的过程,以获得对数据库所有者而言清晰且有益的结果。它不仅限于 ... 阅读更多
8K+ 浏览量
数据挖掘系统与数据库或数据仓库系统集成,以便它能够在有效的环境中执行其任务。数据挖掘系统在一个需要它与其他数据系统(如数据库系统)通信的环境中运行。以下是可以集成这些系统的可能的集成方案:无耦合 - 无耦合定义数据挖掘系统将不使用数据库或数据仓库系统的任何功能。它可以从特定来源(包括文件系统)检索数据,使用一些数据 ... 阅读更多
63K+ 浏览量
数据挖掘功能用于表示必须在数据挖掘任务中发现的模式类型。通常,数据挖掘任务可以分为两类,包括描述性和预测性。描述性挖掘任务定义数据库中数据的共同特征,而预测性挖掘任务则对当前信息进行推理以开发预测。以下是各种数据挖掘功能:数据特征描述 - 它是数据类对象的总体特征的总结。通常通过用户指定的类对应的数据来收集 ... 阅读更多