层次聚类技术通过将数据对象组合成一个簇树来工作。层次聚类算法可以是自上而下或自下而上的。真正的层次聚类方法的质量会因其无法在合并或拆分决策完成后执行调整而下降。簇的合并基于簇之间的距离。簇之间距离的常用度量如下,其中 mi 是簇 Ci 的平均值,ni 是 Ci 中的点数,|p – p’| 是两个点 p 和 p’之间的距离。层次聚类方法的类型有… 阅读更多
统计离群点检验分析两个假设;一个工作假设和一个不同的假设。工作假设 H 是一个陈述,即 n 个对象的整个数据集来自初始分布模型 F,即 H:oi Î F,其中 i = 1, 2, n。如果没有任何统计上重要的证据支持拒绝该假设,则保留该假设。离群点检验检查对象 oi 是否相对于分布 F 基本上过大(或过小)。基于对数据的可用知识,已经提出了不同的检验统计量用于作为离群点检验。假设一些统计量… 阅读更多
聚类方法有很多,如下所示:分区方法 - 给定一个包含 n 个对象或数据元组的数据库,分区方法将信息组装成 k 个分区,其中每个分区定义一个簇,并且 k < n。它可以将数据分配到 k 个组中,这些组可以满足以下必要条件:每个组必须至少包含一个对象。每个对象都应该准确地应用于一个组。给定 k,要构造的分区的数量,分区方法会进行初始分区。然后它使用迭代重定位方法,该方法试图通过转换… 阅读更多