数据挖掘的理论基础是什么?
数据挖掘的基础有几种理论,包括以下这些:
数据规约——在这个理论中,数据挖掘的基础是减少数据表示。为了快速获得对海量数据库查询的近似答案,数据规约用速度换取确定性。
数据规约方法包括奇异值分解(主成分分析背后的驱动因素)、小波、回归、对数线性模型、直方图、聚类、抽样和索引树的开发。
数据压缩——根据这个理论,数据挖掘的基础是用位、关联规则、决策树、聚类等对给定信息进行编码压缩。
模式发现——在这个理论中,数据挖掘的基础是在数据库中查找出现的模式,包括关联、分类模型、序列模式等。机器学习、神经网络、关联挖掘、序列模式挖掘、聚类以及其他几个不同的子领域都为这个理论做出了贡献。
概率论——这是基于统计理论的。在这个理论中,数据挖掘的基础是寻找随机变量的联合概率分布,例如贝叶斯信念网络或分层贝叶斯模型。
微观经济学视角——微观经济学视角将数据挖掘视为发现模式的服务,这些模式只有在可以用于某些企业的决策过程(例如,关于营销方法和生产计划)时才具有吸引力。
这种观点是一种服务,其中模式如果可以基于它们被认为是有趣的。企业被认为面临优化问题,目标是最大化决策的服务或价值。在这个理论中,数据挖掘成为一个非线性优化问题。
归纳数据库——根据这个理论,数据库模式包括存储在数据库中的数据和模式。数据挖掘是在数据库上实现归纳的问题,其功能是查询数据库的信息和理论(即模式)。这种观点在数据库系统的一些研究人员中很流行。
这些理论并非相互排斥。例如,模式发现也可以被视为数据规约或数据压缩的一种设计。理想情况下,一个理论框架必须能够模拟典型的数据挖掘任务(包括关联、分类和聚类),具有概率特性,能够管理多种形式的数据,并处理数据挖掘的迭代和交互本质。此外,需要努力建立一个满足这些要求的、定义明确的数据挖掘结构。
广告