找到 6705 篇文章 关于数据库

什么是稀疏化?

Ginni
更新于 2022年2月14日 13:01:09

482 次浏览

对于 m 个数据点的 m×m 邻近矩阵可以定义为一个密集图,其中每个节点都与其他一些节点连接,并且一些节点组之间边的权重遵循它们的成对邻近度。尽管每个对象都具有一些与其他每个对象相似的度量方法,但对于大多数数据集来说,对象与少数对象非常相似,而与大多数其他对象则相似度较弱。此特性可用于稀疏化邻近图(矩阵),在开始实际聚类过程之前,将一些低相似度(高差异)值设置为 0。稀疏化... 阅读更多

基于图的聚类方法有哪些?

Ginni
更新于 2022年2月14日 12:59:00

1K+ 次浏览

将一组物理或抽象对象组合成相同对象类的过程称为聚类。一个簇是一组数据对象,这些数据对象在同一个簇内彼此相同,并且与其他簇中的对象不同。在许多应用中,数据对象簇可以被视为一个整体。聚类分析是一项基本的人类活动。聚类有助于识别异常值。相同的值被组织成簇,而那些落在簇之外的值被称为异常值。聚类技术考虑数据元组... 阅读更多

基于网格的聚类的算法有哪些?

Ginni
更新于 2022年2月14日 12:31:29

2K+ 次浏览

网格是组织数据集的一种有效方法,至少在低维度下是这样。其概念是将每个属性的适用值划分为多个连续的区间,从而形成一组网格单元。每个对象都落入一个网格单元中,该网格单元的等效属性区间包含该对象的值。对象可以在一次遍历记录时被分配到网格单元,并且还可以同时收集有关每个单元的数据,包括单元中的点数。有多种方法可以使用网格实现聚类,但大多数方法都基于... 阅读更多

什么是 SOM 算法?

Ginni
更新于 2022年2月14日 12:27:03

338 次浏览

SOM 代表自组织特征映射。它是一种聚类和数据可视化技术,依赖于神经网络的观点。尽管 SOM 基于神经网络,但在原型聚类的修改上下文中,它只是简单地呈现出来。SOM 的算法如下:初始化质心。重复选择下一个对象。确定与该对象最接近的质心。刷新该质心和附近的质心,即在某个邻域内。直到质心变化不大或超出阈值。将每个对象分配到其最近的质心并更新质心和簇。初始化 - 此步骤(第 1 行)可以... 阅读更多

什么是 SOM?

Ginni
更新于 2022年2月14日 12:20:16

237 次浏览

SOM 代表自组织特征映射。它是一种聚类和数据可视化方法,依赖于神经网络的观点。SOM 的目标是找到一组质心(在 SOM 术语中称为参考向量)并将数据集中每个对象分配到最支持该对象接近度的质心。在神经网络方法中,每个质心对应一个神经元。与增量 K 均值一样,数据对象一次处理一个,并且最近的质心会更新。与 K 均值不同,SOM 在质心上施加拓扑排序,并且附近的质心也会更新。... 阅读更多

什么是基于原型的聚类?

Ginni
更新于 2022年2月14日 12:18:15

2K+ 次浏览

在基于原型的聚类中,一个簇是一组对象,其中某些对象比其他簇的原型更接近代表该簇的原型。一个简单的基于原型的聚类算法,它需要簇中元素的质心作为簇的原型。基于原型的聚类有各种方法,如下所示:对象可以属于多个簇。此外,一个对象属于每个簇都有一定的权重。这种方法解决了某些对象与多个簇原型同样接近的事实。一个簇是... 阅读更多

聚类算法的特征有哪些?

Ginni
更新于 2022年2月14日 12:16:41

3K+ 次浏览

聚类算法有以下几个特征:顺序依赖性 - 对于某些算法,产生的特征和簇的数量可能会根据处理数据的顺序而有所不同,甚至可能差异很大。虽然避免此类算法似乎是可取的,但有时顺序依赖性是相对较小的,或者算法可能具有其他一些理想的特性。非确定性 - 包括 K 均值在内的聚类算法不依赖于顺序,但它们每次运行都会产生不同的结果,因为它们基于需要随机选择的初始化步骤。因为簇的特征可能因每次运行而异... 阅读更多

簇的元素有哪些?

Ginni
更新于 2022年2月14日 12:14:45

693 次浏览

将一组物理或抽象对象组合成相同对象类的过程称为聚类。一个簇是一组数据对象,这些数据对象在同一个簇内彼此相同,并且与其他簇中的对象不同。在许多应用中,数据对象簇可以被视为一个整体。聚类分析是一项基本的人类活动。聚类分析用于根据对这些记录进行的各种度量形成相同记录的组或簇。关键设计是定义簇在... 阅读更多

什么是数据特征?

Ginni
更新于 2022年2月14日 12:13:01

2K+ 次浏览

以下是一些可以强烈影响聚类分析的数据特征:高维度 - 在高维数据集中,传统的欧几里得密度概念(即每单位体积的点数)变得不那么有意义。认为随着维数的增加,体积呈指数增长,除非点数也随着维数呈指数增长,否则密度趋于 0。它也会导致距离度量在高维空间中变得更加均匀。考虑这一事实的另一种方法是,有更多维度(属性)对距离度量有贡献... 阅读更多

K-Means 和 DBSCAN 之间有什么区别?

Ginni
更新于 2022年2月14日 12:10:58

9K+ 次浏览

K-MeansK 均值聚类是一种分区算法。K 均值将数据集中每个数据点分配到形成的新簇中的一个簇。使用距离或相似性度量将数据或数据点分配到最近的簇。在 k 均值中,一个对象被分配到最近的中心。它可以定义不能连接的约束,并且它修改 k 均值中的中心分配过程到最可行的中心分配。当对象按顺序分配到中心时,在每个步骤中,它都可以确保到目前为止的分配不会违反任何不能连接的约束。一个对象被分配到最近的中心... 阅读更多

广告