BIRCH 代表使用层次结构的平衡迭代归约和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代划分)来聚类大量数值记录。BIRCH 提供了两个概念,即聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构使聚类方法能够在大型数据库中实现最佳速度和可扩展性,并使其能够有效地对传入对象的增量和动态聚类。给定一个聚类中的 n 个 d 维数据对象或点,它可以表示质心 x0、半径 R 和直径 D……阅读更多
如果数据集 S 中的最小分数 p 的对象与 o 的距离高于 d,则数据集中 S 中的一个对象 o 是具有参数 p 和 d 的基于距离的 (DB) 异常值,即 DB (p, d)。换句话说,它可以认为基于距离的异常值是那些没有足够邻居的对象,而不是依赖于统计检验。邻居是基于与给定对象的距离来表示的。与基于统计的方法相比,基于距离的异常值检测概括或合并了标准分布的差异性检验背后的思想。因此,基于距离的异常值也是……阅读更多
EM(期望最大化)算法是一种著名的迭代细化算法,可用于发现参数估计。它可以被认为是 k 均值范式的扩展,它根据聚类均值将对象创建到与其最相似的聚类中。EM 根据定义成员概率的权重将每个对象创建到聚类中。换句话说,聚类之间没有严格的界限。因此,新的均值是根据加权度量来评估的。EM 从组合模型参数的原始估计或“猜测”(统称为参数……阅读更多