1K+ 次查看
将一组物理或抽象对象组合成相同对象的类的过程称为聚类。聚类是一组数据对象,这些数据对象在同一聚类内彼此相同,并且与其他聚类中的对象不同。在许多应用中,可以将一组数据对象作为一个整体作为一个组来考虑。聚类分析是一项基本的人类活动。聚类有助于识别异常值。相同的值被组织成聚类,并且那些落在聚类之外的值被称为异常值。聚类技术考虑数据元组 ... 阅读更多
2K+ 次查看
网格是组织一组数据(至少在低维度下)的有效方法。其概念是将每个属性的适用值划分为多个连续的区间,形成一组网格单元。每个对象都落入其等效属性区间包含对象值的网格单元中。可以通过一次遍历记录将对象分配到网格单元,并且还可以同时收集有关每个单元的数据,包括单元中的点数。有多种方法可以使用网格实现聚类,但大多数方法都基于 ... 阅读更多
338 次查看
SOM 代表自组织特征映射。它是一种聚类和数据可视化技术,依赖于神经网络视角。尽管 SOM 基于神经网络,但它在原型聚类的修改背景下简单地表示出来。SOM 算法如下:初始化质心。重复选择下一个对象。确定与对象最近的质心。更新此质心以及附近的质心,即在特定邻域内。直到质心不再发生太大变化或超出阈值。将每个对象分配到其最近的质心并更新质心和聚类。初始化 - 此步骤(第 1 行)可以 ... 阅读更多
237 次查看
SOM 代表自组织特征映射。它是一种聚类和数据可视化方法,依赖于神经网络视角。SOM 的目标是发现一组质心(在 SOM 术语中为参考向量),并将数据集中的每个对象分配到最支持该对象接近度的质心。在神经网络方法中,每个质心都对应一个神经元。与增量 K 均值一样,数据对象是逐个处理的,并且更新最近的质心。与 K 均值不同,SOM 在质心上施加拓扑排序,并且更新附近的质心。 ... 阅读更多
在基于原型的聚类中,聚类是一组对象,其中某些对象更靠近表示该聚类的原型,而不是更靠近其他聚类的原型。一个简单的基于原型的聚类算法需要将聚类中元素的质心作为该聚类的原型。基于原型的聚类有几种方法,如下所示:对象可以属于多个聚类。此外,一个对象属于每个聚类都有一定的权重。这种方法解决了某些对象与多个聚类原型同样接近的事实。聚类是 ... 阅读更多
3K+ 次查看
聚类算法有以下几个特征:顺序依赖性 - 对于某些算法,生成的特征和聚类数量可能会根据处理数据的顺序而有所不同,甚至可能发生很大变化。虽然避免此类算法可能看起来很有吸引力,但有时顺序依赖性与关联性很小,或者该算法可能具有一些理想的特征。非确定性 - 包括 K 均值在内的聚类算法不依赖于顺序,但它们每次运行都会产生多个结果,因为它们基于需要随机选择的初始化步骤。因为聚类的特征可能会因一次而异 ... 阅读更多
693 次查看
将一组物理或抽象对象组合成相同对象的类的过程称为聚类。聚类是一组数据对象,这些数据对象在同一聚类内彼此相同,并且与其他聚类中的对象不同。在许多应用中,可以将一组数据对象作为一个整体作为一个组来考虑。聚类分析是一项基本的人类活动。聚类分析用于根据对这些记录进行的各种度量形成相同记录的组或聚类。关键设计是定义聚类中的 ... 阅读更多
以下是可能强烈影响聚类分析的一些数据特征:高维度 - 在高维数据集,传统的欧几里得密度概念(即单位体积内点的数量)变得重要。人们认为,随着维数的增加,体积成倍增长,除非点数随维数呈指数增长,否则密度趋于 0。它还可以使距离度量在高维空间中变得更加均匀。考虑这一事实的另一种方法是存在更多维(属性)有助于距离 ... 阅读更多
9K+ 次查看
K-MeansK-means 聚类是分区算法。K-means 将数据集中的每个数据仅分配到新形成的一个聚类中。使用距离或相似性度量将数据或数据点分配到相邻的聚类。在 k-means 中,一个对象被分配到最近的中心。它可以定义不能链接的约束,并且它修改 k-means 中的中心分配过程到最近的有效中心分配。当对象依次分配到中心时,在每个步骤中,它都可以确保到目前为止的分配不会违反某些不能链接的约束。一个对象被分配到最近的中心 ... 阅读更多
199 次查看
层次聚类方法通过将数据对象合并到一个聚类树中来进行操作。层次聚类算法可以是自上而下或自下而上的。准确的层次聚类技术的特征在于其缺乏调整能力,因为合并或拆分决策一旦完成便无法更改。层次聚类有以下几个方面:缺乏全局目标函数凝聚层次聚类方法使用多个要素在每个步骤中局部决定哪些聚类需要合并(或对于分裂方法则需要拆分)。这种方法产生的聚类算法避免了求解复杂组合优化问题的困难。能够处理... 阅读更多