2K+ 阅读量
在统计数据挖掘技术中,它被创建用于有效处理大量数据,这些数据通常是多维的,并且可能包含多种复杂类型。有多种行之有效的统计方法可用于数据分析,特别是对于数值数据。这些方法已被广泛应用于科学记录(例如,物理学、工程学、制造业、心理学和医学实验记录),以及来自经济学和社会科学的信息。统计数据挖掘的各种方法如下:回归 - 通常,这些技术用于根据新的预测变量(自变量)预测响应变量(因变量)的值,... 阅读更多
1K+ 阅读量
时空数据挖掘定义了从时空数据中发现模式和知识的过程。时空数据挖掘的一个实例包括发现城市和土地的发展历史,揭示天气模式,预测地震和飓风,以及确定全球变暖趋势。鉴于移动电话、GPS 设备、基于互联网的地图服务、天气服务和数字地球以及卫星、RFID、传感器、无线和视频技术的普及,时空数据挖掘变得越来越重要,并且具有深远的影响。存在多种类型的时空数据,移动对象数据非常重要。例如,动物学家将遥测设备连接到野生动物身上以探索生态行为,移动经理将... 阅读更多
图定义了一类比集合、序列、格和树更通用的机制。在互联网和社交网络、数据网络、生物网络、生物信息学、化学信息学、计算机视觉以及多媒体和内容检索中,存在着广泛的图应用。图和网络挖掘的应用如下:图模式挖掘 - 它是在一个或一组图中挖掘频繁子图。用于挖掘图模式的各种方法可以分为基于 Apriori 的方法和基于模式增长的方法。它可以挖掘封闭图的集合,其中图 g 是... 阅读更多
序列是有序事件列表。根据它们定义的事件特征,可以将序列分为三组,如下所示:时间序列数据中的相似性搜索时间序列数据集包含在重复计算时间内获取的整数值序列。这些值通常以相同的时间间隔测量(例如,每分钟、每小时或每天)。时间序列数据库在包括股票市场分析、经济和销售预测、预算分析、效用研究、库存研究、收入预测、工作量预测以及流程和质量服务在内的多个应用中很受欢迎。它们有利于研究自然现象、数学和工程... 阅读更多
530 阅读量
高维数据异常值检测的各种挑战如下:异常值的解释 - 它们必须能够不仅识别异常值,而且支持对异常值的解释。因为高维数据集中包含多个特征(或维度),所以识别异常值而不支持关于为什么它们是异常值的某些解释并没有多大帮助。异常值的解释可以来自体现异常值的特定子空间或对对象“异常性”的评估。这种解释可以帮助用户了解异常值的可能含义和重要性。数据稀疏性 - ... 阅读更多
13K+ 阅读量
异常值检测的各种方法如下:监督方法 - 监督方法对数据正常性和异常性进行建模。领域专业人员测试并标记基本数据样本。异常值检测可以建模为分类问题。服务是理解可以识别异常值的分类器。样本可用于训练和测试。在各种应用中,专业人员只能标记正常对象,并且不符合正常对象模型的多个对象被记录为异常值。有多种方法对异常值进行建模,并考虑不符合异常值模型的对象... 阅读更多
异常值是指与其余对象本质上不同的数据对象,就好像它是由不同的结构产生的。为便于演示,可以将不是异常值的数据对象定义为“正常”或预期信息。同样,可以将异常值定义为“异常”数据。异常值是无法组合到给定类别或聚类中的数据组件。这些数据对象与不同数据对象的总体行为有很大差异。这种数据的分析对于挖掘知识可能很重要。异常值检测的各种挑战... 阅读更多
841 阅读量
数据挖掘中存在各种类型的异常值,如下所示:全局异常值 - 在给定的数据集中,如果数据对象与其余信息集本质上不同,则该数据对象就是全局异常值。全局异常值被称为点异常,并且是最容易识别的异常值类型。大多数异常值检测方法旨在发现全局异常值。为了识别全局异常值,一个重要的问题是发现一个合适的偏差度量,该度量与所讨论的应用程序相关。已经提出了多种度量,并且根据这些度量,异常值检测方法被划分为多个类别。全局... 阅读更多
异常值是指与其余对象本质上不同的数据对象,就好像它是由不同的机制产生的。为便于演示,可以将不是异常值的数据对象定义为“正常”或预期信息。通常,可以将异常值定义为“异常”数据。异常值是无法组合到给定类别或聚类中的数据组件。这些数据对象与不同数据对象的通常行为有很大差异。这种数据的分析对于挖掘知识可能很重要。异常值不同于噪声信息。噪声... 阅读更多
592 阅读量
需要各种技术来处理特定约束。处理硬约束和软约束的一般原则如下:处理硬约束 - 处理硬约束的一种通用方法是在聚类分配过程中严格遵守约束。给定一个数据集和一组关于示例的约束(即,必须链接或不能链接约束),我们如何改进 k-means 方法以满足这些约束?COP-kmeans 算法的工作原理如下:为必须链接约束生成超级实例 - 它可以计算必须链接约束的传递闭包。因此,所有必须链接约束都是... 阅读更多