498 次浏览
数据仓库是一种可以收集和管理来自多个来源的数据的方法,为企业提供重要的业务洞察力。数据仓库专门设计用于提供管理决策。简单来说,数据仓库定义了一个独立于组织运营数据库维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过提供可靠的合并历史数据分析平台来支持数据处理。数据仓库是一个语义一致的数据存储,作为决策支持数据模型的物理实现。它保存企业的数据... 阅读更多
1K+ 次浏览
生成名义数据概念层次结构的方法多种多样,如下所示:- 用户或专业人员在模式级别显式指定属性的部分排序- 名义属性或维度的概念层次结构通常包含一组属性。用户或专业人员可以通过在模式级别定义属性的部分或全部控制来简单地表示概念层次结构。例如,假设一个关系数据库包含以下属性集,如街道、城市、省或州和国家。数据仓库位置维度可以包含相同的属性。... 阅读更多
4K+ 次浏览
数据预处理涉及的主要步骤如下:数据清洗、数据集成、数据缩减和数据转换- 数据清洗- 数据清洗例程用于通过填充缺失值、平滑噪声信息、识别或消除异常值以及解决偏差来“清理”信息。如果用户知道数据很脏,他们不太可能相信某些已使用的数据挖掘的结果。此外,脏数据可能会使挖掘阶段混乱,导致输出不稳定。一些挖掘例程有一些处理不完整或嘈杂信息的阶段,但它们并不总是有效的。... 阅读更多
5K+ 次浏览
属性是一个数据字段,定义了数据对象的特征。名词属性、维度、特征和变量在文献中被对应地使用。维度通常用于数据仓库。机器学习文献倾向于使用术语特征,而统计学家则更喜欢术语变量。数据挖掘和数据库专家通常使用术语属性。例如,定义用户对象的属性可以包括客户 ID、姓名和地址。给定属性的观察值称为观察值。已知一组属性可以定义给定对象,称为属性向量(或特征向量)。... 阅读更多
363 次浏览
挖掘方法有以下几个方面:- 挖掘各种各样新的知识- 数据挖掘涵盖了广泛的数据分析和知识发现服务,从数据特征和判别到关系和相关性分析、分类、回归、聚类、异常值方法、序列方法以及趋势和计算分析。这些服务可以以多种方式使用相同的数据库,并且需要开发多种数据挖掘技术。由于软件的多样性,新的挖掘服务不断涌现,使数据挖掘成为一个强大且快速增长的领域。例如,为了在数据网络中进行有效的知识发现,... 阅读更多
754 次浏览
网络搜索引擎是一种专门的计算机服务器,用于搜索网络上的数据。用户查询的搜索结果以列表(称为命中)的形式恢复。命中可能包括网页、图像和不同类型的文件。各种搜索引擎还可以搜索和返回公共数据库或开放目录中可用的数据。搜索引擎与网络目录的区别在于,网络目录由人工编辑器维护,而搜索引擎则以算法或算法和人工输入相结合的方式工作。网络搜索引擎是大型数据挖掘应用程序。有几个数据挖掘... 阅读更多
411 次浏览
分类是发现一个定义和分类数据类别或概念的模型的过程。该模型基于对一组训练数据(即已知类别标签的数据对象)的搜索。该模型可以预测类别标签未知的对象的类别标签。派生模型可以用多种形式表示,包括分类规则(即 IF-THEN 规则)、决策树、数值公式或神经网络。决策树是一种类似流程图的树形结构,其中每个节点表示对属性值的测试,每个分支定义测试的结果... 阅读更多
86 次浏览
一种解决方案是此类公司为消费者提供多种选择退出选项,使消费者能够描述对其个人信息使用的限制,例如- 消费者的个人数据根本不得用于数据挖掘。- 消费者的数据可以用于数据挖掘,但应删除每个消费者的身份或可能导致泄露个人身份的一些数据。- 数据只能用于内部挖掘。- 数据可以在内部和外部使用。此外,公司可以通过启用消费者选择加入来为消费者提供积极的同意,即... 阅读更多
2K+ 次浏览
视觉数据挖掘使用数据和知识可视化方法从海量数据集中发现隐含的和有益的知识。人类视觉系统由眼睛和大脑控制,大脑可以被认为是一个动态的、很大程度上并行的处理和推理引擎,包括一个庞大的知识库。视觉数据挖掘可以被认为是数据可视化和数据挖掘这两个学科的统一。它也与计算机图形学、多媒体系统、人机交互、模式识别和高性能计算相关。一般来说,数据可视化和数据挖掘可以以下列方式集成:数据... 阅读更多
数据挖掘的基础存在多种理论,包括以下内容:数据规约 - 在这种理论中,数据挖掘的基础是减少数据表示。为了快速获得对大型数据库查询的近似答案,数据规约以确定性换取速度。数据规约方法包括奇异值分解(主成分分析背后的驱动因素)、小波、回归、对数线性模型、直方图、聚类、抽样以及索引树的开发。数据压缩 - 根据该理论,数据挖掘的基础是以位为单位对给定信息进行编码压缩,... 阅读更多