598 次浏览
EM(期望最大化)算法是一种著名的迭代细化算法,可用于发现参数估计。它可以被认为是 k-means 范例的扩展,后者根据聚类均值将对象创建到与其最相似的聚类中。EM 根据定义成员概率的权重将每个对象创建到一个聚类中。换句话说,聚类之间没有严格的边界。因此,新的均值是基于加权度量来评估的。EM 从组合模型参数的原始估计或“猜测”(统称为参数…… 阅读更多
1K+ 次浏览
WaveCluster 是一种多分辨率聚类算法,它首先通过将多维网格架构强加到数据空间上来总结记录。它可以使用小波变换来改变原始特征空间,在变换空间中找到密集的域。在这种方法中,每个网格单元总结映射到该单元的一组点的数 据。此汇总数据通常适合主内存,供多分辨率小波变换和后续聚类分析使用。小波变换是一种信号处理方法,它将信号分解成多个频率子带。小波模型可以用于…… 阅读更多
18K+ 次浏览
基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化到有限数量的单元格中,这些单元格构成一个网格结构,在该结构上实现所有聚类操作。该方法的优点是其快速的处理时间,通常与数据对象的数量无关,而仅取决于量化空间中每个维度中的多个单元格。基于网格的方法的一个实例包括 STING,它探索存储在网格单元中的统计数据,WaveCluster,它使用小波变换方法对对象进行聚类,以及 CLIQUE,它定义了一个…… 阅读更多
4K+ 次浏览
变色龙是一种层次聚类算法,它使用动态建模来决定聚类对之间的相似性。它是在观察到 ROCK 和 CURE 等两种层次聚类算法的观察到的弱点后进行修改的。ROCK 及其相关设计强调聚类互连性,而忽略了关于聚类邻近性的数据。CURE 及其相关设计考虑聚类邻近性,但忽略了聚类互连性。在变色龙中,聚类相似性是根据聚类内部对象的连接程度以及聚类的邻近性来评估的。特别是,如果两个聚类的互连性很高并且彼此靠近,则将它们合并。它不基于…… 阅读更多
448 次浏览
像 PAM 这样的经典 k-medoids 分区算法对小型数据集有效,但不能很好地扩展到大型数据集。为了处理更大的数据集,可以使用一种基于采样的方法,称为 CLARA(大型应用程序聚类)。CLARA 的方法如下:如果样本以相当随机的方式选择,它必须紧密地定义原始数据集。所选择的代表性对象(medoids)将类似于从整个数据集中选择的那些对象。CLARA 从数据集中抽取多个样本,对每个样本应用 PAM,并返回…… 阅读更多
7K+ 次浏览
数据挖掘中聚类有以下要求:可扩展性 - 一些聚类算法在小型数据集上运行良好,包括少于几百个数据对象。一个巨大的数据库可以包含数百万个对象。对给定大型数据集样本进行聚类会导致部分结果。需要高度可扩展的聚类算法。处理不同类型属性的能力 - 一些算法被设计用于对基于区间的(数值)信息进行聚类。但是,应用程序可能需要对几种类型的数据进行聚类,包括二进制数据、分类(名义)数据和有序数据,或者这些数据的组合…… 阅读更多
11K+ 次浏览
一些 Apriori 算法的变体已被提出,其目标是提高原始算法的效率,如下所示:基于哈希的技术(将项目集哈希到相应的桶中) - 基于哈希的技术可用于减少候选 k-项目集 Ck(对于 k > 1)的大小。例如,当扫描数据库中的每个事务以从 C1 中的候选 1-项目集创建频繁 1-项目集 L1 时,它可以为每个事务创建一些 2-项目集,将它们哈希(即映射)到哈希表结构的多个桶中,并增加等效桶…… 阅读更多
有各种基于 Web 的工具,如下所示:Arbor Essbase Web - 此工具提供向上、向下、横向钻取;切片和切块以及强大的报告功能,所有这些都是针对 OLAP 的。它还提供数据输入,例如完整的并发多用户写入功能。Arbor Essbase 只是一个服务器产品,没有用户包,因此确保了自己的桌面客户端版本市场。Web 产品不恢复管理和开发结构,但它仅恢复用户查询和更新的访问权限。Information Advantage Web OLAP - 此产品使用以服务器为中心的信使架构,由功能强大的分析引擎组成…… 阅读更多
6K+ 次浏览
FASMI 测试它可以用一种特定方法表示 OLAP 应用程序的特性,而无需规定它应该如何执行。快速 - 它定义了系统旨在在大约五秒钟内向用户生成大多数响应,可理解的分析不超过一秒钟,很少有超过 20 秒。荷兰的独立研究表明,如果在 30 秒内未收到结果,最终用户会认为流程已下降,并且除非系统需要他们报告需要更长时间,否则他们适合点击“ALT+Ctrl+Delete”。分析 - 它…… 阅读更多
5K+ 次浏览
层次聚类技术通过将数据对象组合成一个聚类树来工作。层次聚类算法是自上而下或自下而上的。真实的层次聚类方法的质量由于其无法在合并或拆分决策完成后执行调整而下降。聚类的合并基于聚类之间的距离。聚类之间距离的广泛使用度量如下,其中 mi 是聚类 Ci 的均值,ni 是 Ci 中的点数,|p – p’| 是两点 p 和 p’ 之间的距离。层次聚类方法的类型有…… 阅读更多