497 次查看
数据仓库是一种可以收集和管理来自多个来源的数据的方法,为企业提供重要的商业洞察。数据仓库专门设计用于提供管理决策。简单来说,数据仓库定义了一个独立于组织运营数据库维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过提供可靠的整合历史数据分析平台来支持数据处理。数据仓库是一个语义一致的数据存储,作为决策支持数据模型的物理实现。它保存企业的数据……阅读更多
1K+ 次查看
生成名义数据概念层次结构的方法有很多,如下所示:- 用户或专业人员在模式级别显式指定属性的部分排序 - 名义属性或维度的概念层次结构通常包含一组属性。用户或专业人员可以通过在模式级别定义属性的部分或全部控制来简单地表示概念层次结构。例如,假设一个关系数据库包含以下属性集,例如街道、城市、省份或州和国家。数据仓库位置维度可以包含相同的属性……阅读更多
4K+ 次查看
数据预处理的主要步骤包括数据清洗、数据集成、数据缩减和数据转换,如下所示:- 数据清洗 - 数据清洗程序通过填充缺失值、平滑噪声信息、识别或消除异常值以及解决偏差来“清洗”信息。如果用户知道数据很脏,他们就不太可能相信某些已被使用的数据挖掘的结果。此外,脏数据可能会使挖掘阶段混乱,导致输出不稳定。一些挖掘程序有一些处理不完整或噪声信息的阶段,但它们并不总是有效的……阅读更多
5K+ 次查看
属性是一个数据字段,定义数据对象的特征。名词属性、维度、特征和变量在文献中是对应使用的。维度通常用于数据仓库。机器学习文献倾向于使用术语特征,而统计学家更喜欢使用术语变量。数据挖掘和数据库专家通常使用术语属性。定义用户对象的属性可以包括,例如,客户 ID、姓名和地址。给定属性的观察值被称为观察值。一组可以定义给定对象的属性称为属性向量(或特征向量)。……阅读更多
362 次查看
挖掘方法学有以下几个方面:- 挖掘各种新知识 - 数据挖掘涵盖了广泛的数据分析和知识发现服务,从数据特征描述和区分到关系和关联分析、分类、回归、聚类、异常值方法、序列方法以及趋势和计算分析。这些服务可以以多种方式使用相同的数据库,并且需要开发多种数据挖掘技术。由于软件的多样性,新的挖掘服务不断涌现,使数据挖掘成为一个强大且快速发展的领域。例如,为了在数据网络中有效地发现知识……阅读更多
752 次查看
网络搜索引擎是一种专门的计算机服务器,用于搜索网络上的数据。用户查询的搜索结果以列表(称为命中)的形式恢复。命中可以包括网页、图像和不同类型的文件。各种搜索引擎还可以搜索和返回公共数据库或开放目录中可用的数据。搜索引擎与网络目录的不同之处在于,网络目录由人工编辑支持,而搜索引擎则以算法方式或通过算法和人工输入相结合的方式工作。网络搜索引擎是大型数据挖掘应用程序。有几个数据挖掘……阅读更多
411 次查看
分类是发现定义和分类数据类或概念的模型的过程。该模型基于对一组训练数据(即已知类标签的数据对象)的搜索。该模型可以预测类标签未知的对象的类标签。派生模型可以用多种形式表示,包括分类规则(即 IF-THEN 规则)、决策树、数值公式或神经网络。决策树是一种类似流程图的树形结构,其中每个节点表示对属性值的测试,每个分支表示测试的结果……阅读更多
86 次查看
一种解决方案是,此类公司向消费者提供多种退出选择,使消费者能够描述对其个人信息使用的限制,例如:消费者的个人数据根本不用于数据挖掘。消费者的数据可以用于数据挖掘,但应删除每个消费者的身份或某些可能导致个人身份泄露的数据。数据只能用于内部挖掘。数据可以在内部和外部使用。此外,公司可以向消费者提供积极的同意,即允许消费者选择……阅读更多
2K+ 次查看
视觉数据挖掘使用数据和知识可视化方法从大型数据集中发现隐含的有用知识。人类视觉系统由眼睛和大脑控制,后者可以被认为是一个动态的、很大程度上并行的处理和推理引擎,包括一个巨大的知识库。视觉数据挖掘可以被认为是数据可视化和数据挖掘这两个学科的统一。它还可以与计算机图形学、多媒体系统、人机交互、模式识别和高性能计算相关联。一般来说,数据可视化和数据挖掘可以按以下方式集成:数据……阅读更多
数据挖掘的基础有几个理论,包括以下内容:- 数据缩减 - 在这个理论中,数据挖掘的基础是减少数据表示。数据缩减以确定性换取速度,以响应对大型数据库查询快速获得近似答案的需求。数据缩减方法包括奇异值分解(主成分分析背后的主要组成部分)、小波、回归、对数线性模型、直方图、聚类、抽样和索引树的开发。数据压缩 - 根据这个理论,数据挖掘的基础是用位编码来压缩给定的信息……阅读更多