什么是BIRCH?
BIRCH 代表基于层次结构的平衡迭代规约和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代分区)来聚类大量数值记录。
BIRCH 提供了两个概念,聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构使聚类方法能够在大型数据库中获得最佳速度和可扩展性,并且使其能够有效地对传入对象的增量和动态聚类。
给定一个聚类中的 n 个 d 维数据对象或点,它可以表示聚类的质心 x0、半径 R 和直径 D,如下所示:
$$x_{0}=\frac{\sum_{i=1}^{n}x_{i}}{n}$$
$$R=\sqrt{\frac{\sum_{i=1}^{n}(x_{i}-x_{0})^{2}}{n}}$$
$$D=\sqrt{\frac{\sum_{i=1}^{n}\sum_{j=1}^{n}(x_{i}-x_{j})^{2}}{n(n-1)}}$$
其中 R 是成员元素到质心的平均距离,D 是聚类内部的平均成对距离。R 和 D 都反映了聚类围绕质心的紧密程度。聚类特征 (CF) 是一个三维向量,总结了有关对象聚类的数据。给定一个聚类中的 n 个 d 维对象或点,{xi},则聚类的 CF 表示为
CF=(n,LL,SS)
其中 n 是聚类中点的数量,LS 是 n 个点的线性总和 $\sum_{i=1}^{n}(x_{i})$,SS 是数据点的平方和(即 $\sum_{i=1}^{n}x_{i}^{2}$)
聚类特征是对给定聚类统计数据的总结:从统计学的角度来看,聚类的零阶矩、一阶矩和二阶矩。聚类特征是一种补充。例如,假设我们有两个不相交的聚类,C1 和 C2,分别持有聚类特征 CF1 和 CF2。由 C1 和 C2 组合形成的聚类的聚类特征只是 CF1 +CF2。
聚类特征足以计算 BIRCH 中用于制定聚类决策的所有度量。BIRCH 通过使用聚类特征来总结有关对象聚类的数据,从而有效地利用存储,从而避免了保存所有对象的需要。
CF 树是一种高度平衡的树,它保存用于层次聚类的聚类特征。树中的非叶节点具有后代或“子节点”。非叶节点存储其子节点的 CF 的总和,因此总结了有关其子节点的聚类数据。
CF 树有两个参数,包括分支因子 B 和阈值 T。分支因子定义了每个非叶节点的最大子节点数。阈值参数定义了保存在树的叶节点处的子聚类的最大直径。这两个参数控制着生成的树的大小。