层次聚类技术通过将数据对象组合成一个聚类树来工作。层次聚类算法是自上而下或自下而上的。真实的层次聚类方法的质量由于其在合并或拆分决策完成后无法实现调整而下降。聚类的合并是基于聚类之间的距离。聚类之间距离的常用度量如下所示,其中 mi 是聚类 Ci 的平均值,ni 是 Ci 中的点数,|p – p’| 是两点 p 和 p’ 之间的距离。层次聚类方法的类型……阅读更多
统计离群值检验分析两个假设;一个工作假设和一个不同的假设。工作假设 H 是一个陈述,即 n 个对象的整个数据集来自初始分布模型 F,即 H:oi Î F,其中 i = 1, 2, n。如果没有统计上重要的证据支持其拒绝,则保留该假设。离群值检验检查对象 oi 关于分布 F 是否本质上很大(或很小)。已经提出了不同的检验统计量作为离群值检验,基于对数据的可用知识。假设某些统计量……阅读更多
有各种聚类方法,如下所示:划分方法——给定一个包含 n 个对象或数据元组的数据库,划分方法会将信息的 k 个分区组合在一起,其中每个分区定义一个聚类,并且 k < n。它可以将数据分配到 k 个组中,这可以满足以下要求:每个组必须至少包含一个对象。每个对象都应该准确地应用于一个组。给定 k(要构建的分区的数量),划分方法会进行初始划分。然后,它使用迭代重定位方法,尝试通过转换……阅读更多