BIRCH 代表使用层次结构的平衡迭代缩减和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代分区)来聚类大量数值记录。BIRCH 提供了两个概念,即聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构使聚类方法能够在大型数据库中实现最佳速度和可扩展性,并使其对传入对象的增量和动态聚类有效。给定一个集群中的 n 个 d 维数据对象或点,它可以表示质心 x0、半径 R 和直径 D……阅读更多
如果数据集 S 中的对象 o 的至少一部分 p 的对象与 o 的距离大于 d,则该对象 o 是具有参数 p 和 d 的基于距离的 (DB) 离群值,即 DB (p, d)。换句话说,它可以认为基于距离的离群值是那些没有足够邻居的对象,而不是依赖于统计检验。邻居是根据与给定对象的距离来表示的。与基于统计的方法相比,基于距离的离群值检测概括或合并了标准分布的差异性检验背后的思想。因此,基于距离的离群值也是……阅读更多
EM(期望最大化)算法是一种著名的迭代细化算法,可用于发现参数估计。它可以被认为是 k 均值范式的扩展,它根据集群均值将对象创建到与其最相似的集群中。EM 根据定义成员概率的权重将每个对象创建到集群中。换句话说,集群之间没有严格的界限。因此,新的均值是基于加权度量来评估的。EM 从组合模型参数的原始估计或“猜测”(统称为参数……阅读更多