6K+ 浏览量
半监督聚类是一种通过利用领域知识来划分未标记数据的方法。它通常表示为实例之间的成对约束,或者只是一个额外的标记实例集。使用一些弱监督结构(例如,成对约束的形式,即标记为属于相似或不同集群的对象对)可以从根本上提高无监督聚类的质量。这种依赖于用户反馈或指导约束的聚类过程称为半监督聚类。有几种半监督聚类方法,可以将其分为两类…… 阅读更多
3K+ 浏览量
基于约束的聚类查找满足用户声明的偏好或约束的聚类。基于约束的性质,基于约束的聚类可以采用不同的方法。有几类约束,如下所示:对单个对象的约束 - 它可以定义对要聚类的对象的约束。例如,在房地产应用中,人们可能希望仅对价值超过一百万美元的豪华别墅进行空间聚类。此约束将要聚类的对象集合限制在一定范围内。这可以通过预处理(例如,使用 SQL 查询实现选择)来简单地管理,之后…… 阅读更多
2K+ 浏览量
概念聚类是机器学习中的一种聚类形式,它在给定一组未标记对象的情况下,对这些对象进行分类设计。与通常识别相似对象组的传统聚类不同,概念聚类更进一步,还发现了每个组的特征定义,其中每个组定义一个概念或类别。因此,概念聚类是一个两步过程 - 首先执行聚类,然后进行特征描述。因此,聚类质量不仅仅是单个对象的函数。大多数概念聚类技术采用一种统计方法,该方法使用概率度量来决定概念或聚类。概率…… 阅读更多
598 浏览量
EM(期望最大化)算法是一种著名的迭代细化算法,可用于发现参数估计。可以将其视为 k-means 范例的扩展,后者根据聚类均值将对象创建到与其最相似的聚类中。EM 根据定义成员概率的权重将每个对象创建到一个聚类中。换句话说,聚类之间没有严格的界限。因此,新的均值是根据加权度量计算的。EM 从组合模型参数的原始估计或“猜测”(统称为参数…… 阅读更多
1K+ 浏览量
WaveCluster 是一种多分辨率聚类算法,它首先通过将多维网格结构强加到数据空间来总结记录。它可以使用小波变换来改变原始特征空间,在变换空间中找到密集的区域。在此方法中,每个网格单元总结映射到该单元的一组点的数 据。此汇总数据通常适合于主内存,供多分辨率小波变换和随后的聚类分析使用。小波变换是一种信号处理方法,它将信号分解成多个频率子带。小波模型可用于…… 阅读更多
18K+ 浏览量
基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化成有限数量的单元格,这些单元格形成一个网格结构,所有聚类操作都在该结构上执行。该方法的优点是其快速处理时间,该时间通常与数据对象的数量无关,而仅取决于量化空间中每个维度中的多个单元格。基于网格的方法的一个实例包括 STING,它探索存储在网格单元中的统计数据,WaveCluster,它使用小波变换方法对对象进行聚类,以及 CLIQUE,它定义了一个…… 阅读更多
4K+ 浏览量
变色龙是一种层次聚类算法,它使用动态建模来确定聚类对之间的相似性。它基于对 ROCK 和 CURE 等两种层次聚类算法的观察到的弱点而进行了修改。ROCK 及其相关设计强调聚类互连性,而忽略了关于聚类邻近性的数据。CURE 及其相关设计考虑了聚类邻近性,但忽略了聚类互连性。在变色龙中,聚类相似性是根据集群内对象的连接程度以及集群的邻近性来评估的。特别是,如果两个集群的互连性很高并且它们彼此靠近,则将它们合并。它不基于…… 阅读更多
448 浏览量
像 PAM 这样的经典 k-medoids 分区算法对于小型数据集工作效率很高,但对于大型数据集的扩展性不好。为了处理大型数据集,可以使用一种基于采样的方法,称为 CLARA(大型应用聚类)。CLARA 背后的方法如下:如果样本以相当随机的方式选择,它必须密切定义原始数据集。所选的代表性对象(medoids)将类似于从整个数据集中选择的那些对象。CLARA 绘制数据集的多个样本,对每个样本应用 PAM,并返回…… 阅读更多
7K+ 浏览量
数据挖掘中聚类有以下要求:可扩展性 - 一些聚类算法在小型数据集上运行良好,包括少于几百个数据对象。大型数据库可以包含数百万个对象。对给定大型数据集样本进行聚类可能会导致部分结果。需要高度可扩展的聚类算法。处理不同类型属性的能力 - 一些算法被设计用于对基于区间的(数值)信息进行聚类。但是,应用程序可能需要对多种类型的数据进行聚类,包括二元数据、分类(名义)数据和有序数据,或者这些数据的组合…… 阅读更多
11K+ 浏览量
Apriori算法有一些改进版本旨在提高其效率,如下所示:基于哈希的技术(将项集哈希到相应的桶中)——基于哈希的技术可以用来减少k>1时候选k-项集Ck的大小。例如,在扫描数据库中的每个事务以从C1中的候选1-项集创建频繁1-项集L1时,它可以为每个事务生成一些2-项集,将它们哈希(即映射)到哈希表结构的多个桶中,并增加相应的桶……阅读更多