数据挖掘方法学的不同方面是什么?
数据挖掘方法学包含以下几个方面:
挖掘各种新的知识 − 数据挖掘涵盖了广泛的数据分析和知识发现服务,从数据特征描述和区分到关系和关联分析、分类、回归、聚类、异常值方法、序列方法以及趋势和计算分析。
这些服务可以多种方式使用同一个数据库,并需要开发多种数据挖掘技术。由于软件的多样性,新的挖掘服务不断涌现,使数据挖掘成为一个强大且快速发展的领域。
例如,为了有效地发现数据网络中的知识,集成聚类和排序可以帮助发现高质量的集群和网络中对象的排名。
在多维空间中挖掘知识 − 当在高维数据集中探寻知识时,可以分析多维空间中的信息。它可以在多个抽象级别搜索维度(属性)集合之间的有趣模式。这种挖掘被称为(探索性)多维数据挖掘。
在许多情况下,数据可以被收集或视为多维数据立方体。在立方体区域挖掘知识可以提高数据挖掘的效力和适应性。
数据挖掘——一项跨学科的努力 − 通过整合来自多个学科的新技术,可以提高数据挖掘的效力。例如,它可以挖掘包含自然语言文本的记录,将数据挖掘方法与数据检索和自然语言处理方法相融合是有意义的。
增强网络环境中发现能力 − 一些数据对象存在于连接或互连的环境中,无论是Web、数据库关联、文件还是记录。多个数据对象之间的语义连接可用于改进数据挖掘。在一个对象集中发现的知识可以用来增强在“关联”或语义连接的对象组中发现知识。
处理数据的不确定性、噪声或不完整性 − 数据可能包含噪声、错误、异常或歧义,或者是不完整的。错误和噪声可能会混淆数据挖掘阶段,导致导出错误的设计。数据清洗、数据预处理、异常值检测和去除以及歧义推理是需要与数据挖掘过程统一起来的方法示例。
模式评估和模式或约束引导的挖掘 − 数据挖掘过程产生的并非所有模式都具有趣味性。模式的趣味性因用户而异。因此,需要根据主观度量来评估已发现模式的趣味性的技术。
这些技术根据给定的用户类别、用户的信念或期望来计算模式的值。此外,通过使用趣味性度量或用户定义的约束来指导发现过程,可以生成更有趣的模式并缩小搜索空间。