2K+ 浏览量
图定义了一类比集合、序列、格和树更通用的机制。互联网和社交网络、数据网络、生物网络、生物信息学、化学信息学、计算机视觉以及多媒体和内容检索等领域都有广泛的图应用。挖掘图和网络的应用如下:图模式挖掘 - 它是在一个或一组图中挖掘频繁子图。挖掘图模式的方法多种多样,可以分为基于Apriori的方法和基于模式增长的方法。它可以挖掘闭合图的集合,其中图g是... 阅读更多
序列是事件的有序列表。可以根据它们定义的事件特征将序列划分为三组,如下所示:时间序列数据中的相似性搜索时间序列数据集包含在时间重复计算期间获得的整数序列值。这些值通常以相同的时间间隔(例如每分钟、每小时或每天)测量。时间序列数据库在多个应用程序中都很流行,包括股票市场分析、经济和销售预测、预算分析、效用研究、库存研究、收入预测、工作量预测以及流程和质量服务。它们有利于研究自然现象、数学和工程... 阅读更多
530 浏览量
高维数据异常值检测面临着各种挑战,如下所示:异常值的解释 - 它们必须能够不仅识别异常值,而且支持对异常值的解释。因为高维数据集中包含多个特征(或维度),所以识别异常值而不支持关于它们为什么是异常值的某些解释并没有多大帮助。异常值的解释可以来自体现异常值的特定子空间或关于对象“异常性”的评估。这种解释可以帮助用户了解异常值的可能含义和重要性。数据稀疏性 - ... 阅读更多
13K+ 浏览量
异常值检测的方法多种多样,如下所示:监督方法 - 监督方法对数据正态性和异常性进行建模。领域专业人员测试并标记基本数据样本。异常值检测可以建模为分类问题。服务是了解可以识别异常值的分类器。样本可用于训练和测试。在各种应用中,专业人员只能标记正常对象,并且不符合正常对象模型的多个对象被记录为异常值。有不同的方法对异常值进行建模,并考虑不符合异常值模型的对象... 阅读更多
异常值是指与其余对象存在本质差异的数据对象,就好像它是由不同的结构产生的。为了便于演示,可以将非异常值数据对象定义为“正常”或预期信息。同样,可以将异常值定义为“异常”数据。异常值是无法组合到给定类或集群中的数据组件。这些是与不同数据对象的常规行为存在多种行为的数据对象。这种数据分析对于挖掘知识可能非常重要。异常值检测的各种挑战... 阅读更多
841 浏览量
数据挖掘中异常值的类型多种多样,如下所示:全局异常值 - 在给定的数据集中,如果数据对象与其余信息集存在本质差异,则该数据对象为全局异常值。全局异常值称为点异常,是最简单的异常值类型。大多数异常值检测方法旨在发现全局异常值。它可以识别全局异常值,一个重要的问题是发现关于所讨论应用的适当偏差测量。提出了几种测量方法,并且,根据这些测量方法,异常值检测方法被划分为多个类别。全局... 阅读更多
异常值是指与其余对象存在本质差异的数据对象,就好像它是由多种机制产生的。为了便于演示,可以将非异常值数据对象定义为“正常”或预期信息。通常,可以将异常值定义为“异常”数据。异常值是无法组合到给定类或集群中的数据组件。这些是与不同数据对象的通常行为存在多种行为的数据对象。这种数据分析对于挖掘知识可能非常重要。异常值不同于噪声信息。噪声... 阅读更多
592 浏览量
需要各种技术来处理特定约束。处理硬约束和软约束的一般原则如下:处理硬约束 - 处理硬约束的一般方法是在聚类分配过程中严格遵守约束。给定一个数据集和一组关于示例的约束(即,必须链接或不能链接约束),我们如何开发k-means方法来满足这些约束?COP-kmeans算法的工作原理如下:为必须链接约束生成超级实例 - 它可以计算必须链接约束的传递闭包。因此,所有必须链接约束都是... 阅读更多
368 浏览量
基于约束的算法需要约束来减少频繁项集生成阶段的搜索空间(关联规则创建步骤与穷举算法相同)。约束的重要性是明确定义的,并且它们只生成对客户有意义的关联规则。该方法非常简单,并且规则空间减少了,从而使剩余规则使用约束。有三种类型的约束,如下所示:实例约束 - 实例约束定义了如何在聚类分析中对一对或一组实例进行分组。从... 阅读更多
1K+ 浏览量
存在两种类型的度量,例如测地线距离和基于随机游走的距离。测地线距离 - 图中两个顶点之间距离的一个简单度量是顶点之间的最短路径。通常,两个顶点之间的测地线距离是指顶点之间最短路径的边数。对于图中未连接的两个顶点,测地线距离表示为无穷大。通过利用测地线距离,它可以表示用于图分析和聚类的各种有用度量。给定一个图 G = (V, E),其中 V ... 阅读更多