找到 413 篇文章 关于数据挖掘

什么是 CURE?

Ginni
更新于 2022年2月14日 13:02:59

2K+ 浏览量

CURE 代表使用代表的聚类。它是一种聚类算法,它使用多种技术来实现一种能够处理高数据集、异常值以及具有非球形结构和非均匀大小的聚类的方法。CURE 通过使用来自聚类的几个代表点来定义聚类。这些点将获取聚类的几何形状和结构。第一个代表点被选择为距离聚类中心最远的点,而其余点则被选择为它们距离所有先前选择的点最远。在这种方法中,代表点是关联地良好分布的。... 阅读更多

什么是稀疏化?

Ginni
更新于 2022年2月14日 13:01:09

482 浏览量

m 个数据点的 m×m 邻近矩阵可以定义为一个密集图,其中每个节点都与其他一些节点链接,并且某些节点组之间的边的权重遵循它们的成对邻近性。尽管每个对象都有一些方法与每个其他对象相似,但对于大多数数据集,对象与少量对象非常相似,而与大多数其他对象则弱相似。此特性可用于稀疏化邻近图(矩阵),在开始实际聚类过程之前,将一些低相似性(高差异性)值设置为 0。稀疏化... 阅读更多

基于图的聚类的方法有哪些?

Ginni
更新于 2022年2月14日 12:59:00

1K+ 浏览量

将一组物理或抽象对象组合成相同对象的类的过程称为聚类。聚类是一组数据对象,这些数据对象在同一聚类内彼此相同,并且与其他聚类中的对象不同。在许多应用程序中,一组数据对象可以被集体视为一个组。聚类分析是一项基本的人类活动。聚类有助于识别异常值。相同的值被组织成聚类,而那些落在聚类之外的值被称为异常值。聚类技术考虑数据元组... 阅读更多

基于网格的聚类的算法有哪些?

Ginni
更新于 2022年2月14日 12:31:29

2K+ 浏览量

网格是组织一组数据的一种有效方法,至少在低维度下是这样。其概念是将每个属性的适用值划分为多个连续的区间,从而形成一组网格单元。每个对象都下降到一个网格单元,其等效属性区间包含该对象的值。对象可以在一次遍历记录时被创建到网格单元中,并且每个单元的数据(包括单元中的点数)也可以同时收集。有多种方法可以使用网格实现聚类,但大多数方法都基于... 阅读更多

什么是 SOM 算法?

Ginni
更新于 2022年2月14日 12:27:03

338 浏览量

SOM 代表自组织特征映射。它是一种聚类和数据可视化技术,依赖于神经网络的观点。无论 SOM 的神经网络基础如何,它都只是在基于原型的聚类的改变的背景下被简单地呈现。SOM 的算法如下:初始化质心。重复选择下一个对象。确定与该对象最接近的质心。刷新此质心和附近的质心,即在某个邻域中。直到质心没有太大变化或超出阈值。将每个对象创建到其最近的质心并恢复质心和聚类。初始化 - 此步骤(第 1 行)可以... 阅读更多

什么是 SOM?

Ginni
更新于 2022年2月14日 12:20:16

237 浏览量

SOM 代表自组织特征映射。它是一种聚类和数据可视化方法,依赖于神经网络的观点。SOM 的目标是发现一组质心(在 SOM 术语中称为参考向量),并将数据集中每个对象创建到最支持该对象接近度的质心。在神经网络方法中,每个质心都对应一个神经元。与增量 K 均值一样,数据对象是分阶段逐个处理的,并且最近的质心会被刷新。与 K 均值不同,SOM 对质心施加拓扑排序,并且附近的质心也会升级。... 阅读更多

什么是基于原型的聚类?

Ginni
更新于 2022年2月14日 12:18:15

2K+ 浏览量

在基于原型的聚类中,聚类是一组对象,其中某些对象更靠近代表该聚类的原型,而不是更靠近其他聚类的原型。一个简单的基于原型的聚类算法,它需要聚类中元素的质心作为聚类的原型。基于原型的聚类有各种方法,如下所示:对象被允许属于多个聚类。此外,一个对象属于每个聚类都有一定的权重。这种方法解决了某些对象与多个聚类原型同样接近的事实。聚类是... 阅读更多

聚类算法的特征是什么?

Ginni
更新于 2022年2月14日 12:16:41

3K+ 浏览量

聚类算法有各种特征,如下所示:顺序依赖性 - 对于某些算法,生成的特征和聚类数量可能会根据处理数据的顺序而有所不同,甚至可能发生巨大变化。虽然防止此类算法似乎是可取的,但有时顺序依赖性与关联性较小,或者算法可能具有几个可取的特性。非确定性 - 包括 K 均值在内的聚类算法不依赖于顺序,但它们每次运行都会产生多个结果,因为它们基于需要随机选择的初始化步骤。由于聚类的特征可能因一次而异... 阅读更多

聚类的元素是什么?

Ginni
更新于 2022年2月14日 12:14:45

693 浏览量

将一组物理或抽象对象组合成相同对象的类的过程称为聚类。聚类是一组数据对象,这些数据对象在同一聚类内彼此相同,并且与其他聚类中的对象不同。在许多应用程序中,一组数据对象可以被集体视为一个组。聚类分析是一项基本的人类活动。聚类分析用于根据对这些记录进行的各种测量形成相同记录的组或聚类。关键设计是定义聚类中的... 阅读更多

什么是数据特征?

Ginni
更新于 2022年2月14日 12:13:01

2K+ 浏览量

以下是可能强烈影响聚类分析的一些数据特征,如下所示:高维度 - 在高维数据集中,传统的欧氏密度概念(即单位体积内的点数)变得非常重要。认为随着维数的增加,体积呈指数增长,除非点数也随维数呈指数增长,否则密度趋近于0。它也会导致高维空间中的邻近性变得更加均匀。考虑这一事实的另一种方法是,有更多维度(属性)会影响邻近性…… 阅读更多

广告