5K+ 浏览量
数据仓库是一种主要用于收集和管理来自各种来源的数据的技术,以便为企业提供有意义的业务洞察力。数据仓库专门设计用于支持管理决策。简单来说,数据仓库是指与组织的操作数据库分开维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过支持一个整合的、历史信息的坚实平台来进行数据处理,以便进行分析。数据仓库查询很复杂,因为它们包含在汇总级别计算大量信息。它可能需要使用... 阅读更多
730 浏览量
操作数据库操作数据库是数据仓库的数据源。它包含用于运行企业正常运营的详细数据。数据通常会随着更新的创建而发生变化,并反映最终交易的最新值。它也称为 OLTP(联机事务处理数据库),用于实时管理动态数据。操作数据库的要求仅仅是控制信息的简单插入和更新,并具有高效的数据操作和查看机制。数据仓库数据仓库系统为用户或知识工作者提供数据分析和决策支持。此类系统可以构建... 阅读更多
769 浏览量
数据仓库是一种主要用于收集和管理来自各种来源的数据的技术,以便为企业提供有意义的业务洞察力。数据仓库专门设计用于支持管理决策。简单来说,数据仓库定义了一个与组织的操作数据库独立维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过提供一个整合的、历史信息的坚实平台来进行数据处理,以便进行分析。数据仓库在多维空间中概括和集中数据。数据仓库的构建包含数据清洗、数据集成和数据转换,并且可以... 阅读更多
数据集成是将来自多个不同来源的数据合并的过程。在执行数据集成时,它必须处理数据冗余、不一致性、重复性等问题。在数据挖掘中,数据集成是一种记录预处理方法,包括将来自几个异构数据源的数据合并成连贯的数据,以保留并提供数据的统一视角。数据集成在医疗保健行业尤其重要。来自多个患者记录和诊所的集成数据通过将来自多个系统的信息集成到单个有益信息视角中,帮助临床医生识别医疗疾病和疾病,从中可以获得有用的... 阅读更多
1K+ 浏览量
分类数据是离散数据。分类属性具有固定数量的不同值,这些值之间没有顺序,包括地理区域、工作类别和项目类型。生成分类数据概念层次结构的方法如下:用户或专家在模式级别显式指定属性的部分排序 - 分类属性或维度的概念层次结构通常包含一组属性。用户或专业人士可以通过在模式级别定义属性的部分或全部排序来简单地表示概念层次结构。例如,一个... 阅读更多
2K+ 浏览量
由于适用数据范围的广泛多样性和数据值的频繁更新,为数值属性定义概念层次结构既复杂又费力。数值数据概念层次结构生成的方法如下:分箱 - 分箱是一种基于定义数量的箱的自上而下的拆分技术。这些方法也用作数值减少和概念层次结构生成的离散化方法。这些技术可以递归地应用于结果分区以创建概念层次结构。分箱不使用类数据,因此是一种无监督的离散化技术。它... 阅读更多
数据离散化技术可用于通过将属性的范围划分为区间来减少给定连续属性的值的数量。可以使用区间标签来恢复实际数据值。它可以将连续属性的多个值用少量区间标签恢复,从而减少并简化原始信息。这导致了简洁、易用、知识级别的挖掘结果表示。离散化技术可以根据离散化的实现方式进行分类,例如它是否使用类数据或其进行的方向(即自上而下与自下而上)。如果... 阅读更多
715 浏览量
降维在降维中,数据编码或转换用于访问原始数据的减少或“压缩”表示。如果原始数据可以从压缩数据中重建而不会丢失任何数据,则数据减少称为无损。如果重建的数据只是原始数据的近似值,则数据减少称为有损。DWT 与离散傅里叶变换 (DFT) 紧密相关,离散傅里叶变换是一种包含正弦和余弦的信号处理技术。一般来说,DWT 可以实现更好的有损压缩。也就是说,如果为 DWT 保留了相同数量的系数... 阅读更多
在数值归约中,通过选择替代的、更小的数据表示形式来减少数据量。这些技术可能是参数化的或非参数化的。对于参数化方法,使用模型来估计数据,因此只需要存储数据参数,而不是实际数据,例如对数线性模型。非参数化方法用于存储数据的简化表示,包括直方图、聚类和抽样。以下是一些数值归约技术:回归和对数线性模型 - 这些模型可用于逼近给定数据。在... 阅读更多
在降维中,应用数据编码或转换以获得原始数据的减少或“压缩”表示。如果原始数据可以从压缩数据中重建而没有任何信息丢失,则数据减少称为无损。如果重建的数据只是原始数据的近似值,则数据减少称为有损。以下是有损减少的两种方法:小波变换 - 离散小波变换 (DWT) 是一种线性信号处理技术,当应用于数据向量 X 时,会将其转换为数值不同的向量 X',... 阅读更多