BIRCH 代表使用层次结构的平衡迭代归约和聚类。它旨在通过集成层次聚类和其他聚类方法(包括迭代分区)来聚类大量数值记录。BIRCH 提供了两个概念,即聚类特征和聚类特征树 (CF 树),用于总结聚类描述。这些结构使聚类方法能够在大型数据库中获得最佳速度和可扩展性,并使其对传入对象的增量和动态聚类有效。给定一个聚类中的 n 个 d 维数据对象或点,它可以表示质心 x0、半径 R 和直径 D…阅读更多
如果数据集中至少有 p 分数的物体与物体 o 的距离大于 d,则数据集 S 中的物体 o 是具有参数 p 和 d 的基于距离的 (DB) 异常值,即 DB (p, d)。换句话说,它可以认为基于距离的异常值是没有足够邻居的那些物体,而不是依赖于统计检验。邻居是基于与给定物体的距离来表示的。与基于统计的方法相比,基于距离的异常值检测概括或合并了标准分布的差异性检验背后的思想。因此,基于距离的异常值也是…阅读更多