数据挖掘中的聚类类型有哪些?
聚类分析用于根据对这些记录进行的各种度量形成相同记录的组或聚类。它可以以有利于分析目标的方式定义聚类。此数据已用于多个领域,例如天文学、考古学、医学、化学、教育、心理学、语言学和社会学。
以下是各种类型的聚类:
**良好分离的聚类** - 聚类是一组对象,其中每个元素都比集群中某些非集群对象更接近集群中的其他每个元素。有时,阈值可以定义集群中所有对象都应足够接近(或相似)。只有当数据包含彼此完全远离的自然聚类时,才需要此聚类描述。
**基于原型的聚类** - 聚类是一组对象,其中每个对象都比某些多个聚类的原型更接近表示该聚类的原型。对于具有连续属性的数据,聚类的原型是质心,例如聚类中各个点的平均值(均值)。当质心不重要时,包括记录具有分类属性时,原型是中心点,例如聚类的典型点。
**基于图的聚类** - 如果数据通常表示为图,其中节点是对象,链接定义对象之间的连接,则聚类可以表示为连接的组件;即,相互链接的对象集,但与组外的对象没有连接。
基于图的聚类的重要示例是基于邻近性的聚类,其中只有当两个对象位于彼此指定的距离内时,它们才链接。这意味着基于邻近性的聚类中的每个对象都比多个聚类中的某些点更接近聚类中的多个对象。
**基于密度的聚类方法** - 一些划分技术根据对象之间的距离对对象进行聚类。这种方法只能发现球形聚类,并且在发现任意形状的聚类时会遇到困难。已经根据密度概念生成了多种聚类方法。
DBSCAN 是一种常见的基于密度的聚类方法,它根据密度阈值增加聚类。OPTICS 是一种基于密度的聚类方法,它计算扩展的聚类排序以进行自动和互斥聚类分析。
**基于网格的聚类方法** - 基于网格的方法将对象空间量化到多个有限的单元格中,这些单元格形成网格结构。在网格结构(即量化空间)上实现了几种聚类服务。
这种方法的优点是其快速的处理时间,这通常与多个数据对象无关,而仅基于量化空间中每个维度中的多个单元格。