什么是基于模型的聚类?


基于模型的聚类是一种统计方法的数据聚类方法。观察到的(多变量)数据被认为是由有限的组件模型组合生成的。每个组件模型都是一个概率分布,通常是参数化多变量分布。

例如,在多元高斯混合模型中,每个组件都是一个多元高斯分布。负责生成特定观察的组件决定了观察所属的集群。

基于模型的聚类试图提高给定数据与某些数学模型之间的拟合度,并基于这样的假设:数据是由基本概率分布的组合生成的。

基于模型的聚类类型如下:

**统计方法**——期望最大化是一种流行的迭代细化算法。k-means的扩展——

  • 它可以根据权重(概率分布)将每个对象分配到一个集群。

  • 新的均值是根据权重度量计算的。

基本思想如下:

  • 它可以从参数向量的初始估计开始。

  • 它可以用来迭代地根据参数向量生成的混合密度重新对设计进行评分。

  • 重新评分的模式用于更新参数估计。

  • 如果模式根据它们在特定组件中的分数被放置,则可以将它们用于属于同一集群的模式。

算法

  • 最初,随机分配k个聚类中心。

  • 它可以迭代地细化基于以下两个步骤的聚类:

**期望步骤**——它可以将每个数据点Xi分配到具有以下概率的聚类Ci

$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{P(C_k)P(X_i\arrowvert\:C_k)}{P(X_i)}}$$

**最大化步骤**——它可以用来估计模型参数

$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k)}{X_{j}P(X_i)\in\:C_j}}$$

**机器学习方法**——机器学习是一种为海量数据处理创建复杂算法并向用户提供结果的方法。它使用可以从经验中学习并创建预测的复杂程序。

通过频繁输入训练信息,算法本身得到改进。机器学习的主要目标是学习数据并从数据中构建可以被人理解和使用的模型。

这是一种著名的增量概念学习方法,它以分类树的形式生成层次聚类。每个节点定义一个概念,并包含该概念的概率表示。

局限性

  • 属性相互独立的假设通常过于严格,因为可能存在相关性。

  • 它不适用于对大型数据库数据、倾斜树和昂贵的概率分布进行聚类。

**神经网络方法**——神经网络方法将每个聚类表示为一个示例,作为聚类的原型。根据某种距离度量,新的对象被分配到其示例最相似的聚类。

更新于:2022年2月15日

15K+ 次浏览

启动您的职业生涯

通过完成课程获得认证

开始学习
广告