数据挖掘中的聚类类型有哪些?


聚类有多种类型,如下所示:

层次聚类与划分聚类 - 几种聚类类型之间的区别在于聚类集是嵌套的还是非嵌套的,或者用流行的术语来说,是层次的还是划分的。划分聚类是将一组数据对象划分为不重叠的子集(聚类),其中每个数据对象都恰好属于一个子集。

它允许聚类具有子聚类,因此需要层次聚类,它是一组嵌套的聚类,被组织成树状结构。树中的每个节点(聚类)(除了叶节点)都是其子节点(子聚类)的并集,树的根是包含所有对象的聚类。

互斥聚类、重叠聚类与模糊聚类 - 聚类通常是互斥的,因为它们将每个对象分配到一个单独的聚类。存在一个点可以位于多个聚类中的情况,这些情况最好由非互斥聚类来处理。

在这种方法中,重叠或非互斥聚类可以遵循这样一个事实,即一个对象可以属于多个组(类)。例如,大学里的人既可以是注册的学生,也可以是大学的员工。

在模糊聚类中,每个对象都以一个介于 0(绝对不属于)和 1(绝对属于)之间的隶属度权重应用于每个聚类。换句话说,聚类被认为是模糊集。

完全聚类与部分聚类 - 完全聚类将每个对象分配到一个聚类,而部分聚类则不会。部分聚类的原因是数据集中的某些对象可能不属于明确的组。数据集中的某些对象可以定义为噪声、异常值或“不感兴趣的背景”。例如,一些新闻报道可能共享一个共同的主题,例如全球变暖,而其他报道则更通用或独一无二。

因此,为了发现上个月新闻报道中的重要主题,只需要搜索那些不太可能由共同主题连接的文档聚类。在某些情况下,需要对所有对象进行聚类。例如,需要聚类来组织文件以进行浏览的应用程序需要确保所有文件都可以被浏览。

更新于: 2022年2月14日

1K+ 次浏览

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告