层次聚类技术通过将数据对象组合成一个簇树来工作。层次聚类算法是自上而下或自下而上的。真实的层次聚类方法的质量因其无法在合并或拆分决策完成后执行调整而下降。簇的合并基于簇之间的距离。簇之间距离的广泛使用度量如下,其中 mi 是簇 Ci 的平均值,ni 是 Ci 中的点数,|p – p’| 是两点 p 和 p’ 之间的距离。层次聚类方法的类型有…… 阅读更多
统计离群值检验分析两个假设;工作假设和备择假设。工作假设 H 是一个陈述,即 n 个对象的整个数据集来自初始分布模型 F,即 H:oi Î F,其中 i = 1, 2, n。如果没有任何统计上重要的证据支持拒绝该假设,则保留该假设。离群值检验检查对象 oi 是否相对于分布 F 基本上是大(或小)。基于对数据的可用知识,已经提出了不同的检验统计量用于离群值检验。假设一些统计量…… 阅读更多
聚类方法有很多,如下所示:- 分区方法 - 给定一个包含 n 个对象或数据元组的数据库,分区方法将信息分成 k 个分区,其中每个分区定义一个聚类,并且 k < n。它可以将数据分配到 k 个组中,这些组可以满足以下必要条件:- 每个组必须至少包含一个对象。- 每个对象都应准确地应用于一个组。给定 k(要构造的分区的数量),分区方法会进行初始分区。然后,它使用迭代重定位方法,尝试通过转换…… 阅读更多