1K+ 次浏览
将一组物理或抽象对象组合成相同对象类别的过程称为聚类。集群是一组数据对象,它们在同一个集群内彼此相同,并且与其他集群中的对象不同。在许多应用中,数据对象的集群可以被集体视为一个组。集群分析是一项重要的活动。聚类有助于识别异常值。相同的值被组织成集群,而那些落在集群之外的值被称为异常值。聚类技术考虑数据元组……阅读更多
2K+ 次浏览
网格是一种有效组织数据集的方法,至少在低维情况下是这样。其概念是将每个属性的适用值划分为多个连续区间,从而形成一组网格单元。每个对象都落入其等效属性区间包含该对象值的网格单元中。对象可以在对记录进行一次遍历时被分配到网格单元中,并且关于每个单元的数据(包括单元中的点数)也可以同时收集。有多种方法可以使用网格实现聚类,但大多数方法都基于……阅读更多
338 次浏览
SOM代表自组织特征映射。这是一种基于神经网络观点的聚类和数据可视化技术。不管SOM的神经网络基础如何,它在原型聚类的修改环境中都是简单地呈现的。SOM算法如下:初始化质心。重复选择下一个对象。确定离对象最近的质心。刷新该质心及其附近的质心,即在一个确定的邻域内。直到质心变化不大或超过阈值。将每个对象分配到其最近的质心,并更新质心和集群。初始化-这一步(第1行)可以……阅读更多
237 次浏览
SOM代表自组织特征映射。这是一种基于神经网络观点的聚类和数据可视化方法。SOM的目标是找到一组质心(在SOM术语中称为参考向量),并将数据集中每个对象分配给最能代表该对象接近度的质心。在神经网络方法中,每个质心对应一个神经元。与增量K均值一样,数据对象一次处理一个,并更新最近的质心。与K均值不同,SOM对质心施加拓扑排序,并且也更新附近的质心……阅读更多
在基于原型的聚类中,一个集群是一组对象,其中某些对象更接近于代表该集群的原型,而不是更接近于其他集群的原型。一个简单的基于原型的聚类算法,它使用集群中元素的质心作为该集群的原型。基于原型的聚类有各种方法,如下所示:对象可以属于多个集群。此外,一个对象属于每个集群的权重不同。这种方法解决了某些对象与多个集群原型同样接近的事实。一个集群……阅读更多
3K+ 次浏览
聚类算法有各种特征,如下所示:顺序依赖性-对于某些算法,产生的特征和集群数量可能会根据处理数据的顺序而变化,甚至可能发生剧烈变化。虽然阻止此类算法似乎是可取的,但有时顺序依赖性是相对较小的,或者算法可能具有其他一些理想的特性。非确定性-包括K均值在内的聚类算法不是顺序相关的,但它们每次运行都会产生不同的结果,因为它们依赖于需要随机选择的初始化步骤。因为集群的特性可能因……阅读更多
693 次浏览
将一组物理或抽象对象组合成相同对象类别的过程称为聚类。集群是一组数据对象,它们在同一个集群内彼此相同,并且与其他集群中的对象不同。在许多应用中,数据对象的集群可以被集体视为一个组。集群分析是一项重要的活动。集群分析用于根据对这些记录进行的各种度量形成相同记录的组或集群。关键设计是定义集群中……阅读更多
以下是某些可能强烈影响聚类分析的数据特征:高维性-在高维数据集中,传统的欧几里得密度概念(即单位体积内点的数量)变得不重要。人们认为,随着维数的增加,体积呈指数增长,除非点数随维数呈指数增长,否则密度趋于0。它还会使高维空间中的邻近性影响变得更加均匀。考虑这一事实的另一种方法是,有更多维度(属性)会影响到邻近性……阅读更多
9K+ 次浏览
K均值K均值聚类是一种划分算法。K均值将数据集中每个数据只分配到一个新形成的集群中。使用距离或相似性度量将数据或数据点分配给最近的集群。在K均值中,一个对象被分配到最近的中心。它可以定义禁止链接约束,并修改K均值中的中心分配过程为最近的可用中心分配。当对象按顺序分配给中心时,在每个步骤中,它都可以确保到目前为止的分配不会违反任何禁止链接约束。一个对象被分配到最近的中心……阅读更多
199 次浏览
层次聚类方法通过将数据对象合并到集群树中来工作。层次聚类算法是自顶向下或自底向上的。精确的层次聚类方法的性能会由于其缺乏适应性而下降,因为合并或拆分决策是最终确定的。层次聚类有各种元素,如下所示:缺乏全局目标函数凝聚层次聚类方法使用各种启发式方法来局部决定在每个步骤中哪些集群应该合并(或对于分裂方法来说应该分裂)。这种方法产生了避免解决复杂组合优化问题的困难的聚类算法。能够处理……阅读更多