找到关于数据结构的1861 篇文章

什么是半监督聚类分析?

Ginni
更新于 2021年11月24日 10:55:56

6K+ 次查看

半监督聚类是一种通过利用领域知识对未标记数据进行划分的方法。它通常表示为实例之间的成对约束,或者只是一个额外的标记实例集。使用一些弱监督结构(例如,成对约束的形式,即标记为属于相似或不同集群的对象对)可以实质上提高无监督聚类的质量。这种依赖于用户反馈或指导约束的聚类过程称为半监督聚类。有几种半监督聚类方法,可以分为两类…… 阅读更多

基于约束的聚类分析有哪些类型?

Ginni
更新于 2021年11月24日 10:53:53

3K+ 次查看

基于约束的聚类查找满足用户声明的偏好或约束的聚类。它基于约束的性质,基于约束的聚类可以采用不同的方法。有几类约束,如下所示-对单个对象的约束-它可以定义对要聚类的对象的约束。例如,在一个房地产应用程序中,人们可能希望仅对价值超过一百万美元的豪华别墅进行空间聚类。此约束将要聚类的对象集合限制为。它可以通过预处理(例如,使用 SQL 查询实现选择)简单地进行管理,之后…… 阅读更多

什么是概念聚类?

Ginni
更新于 2021年11月24日 11:19:48

2K+ 次查看

概念聚类是机器学习中的一种聚类形式,它在给定一组未标记对象的情况下,对这些对象进行分类设计。与传统的聚类通常识别相似对象的组不同,概念聚类更进一步,还发现了每个组的特征定义,其中每个组定义一个概念或类别。因此,概念聚类是一个两步过程-首先执行聚类,然后进行表征。因此,聚类质量不仅仅是单个对象的效用。大多数概念聚类技术采用一种统计方法,该方法使用概率度量来决定概念或聚类。概率…… 阅读更多

什么是期望最大化?

Ginni
更新于 2021年11月24日 10:11:39

598 次查看

EM(期望最大化)算法是一种著名的迭代细化算法,可用于发现参数估计。它可以被认为是 k 均值范式的扩展,根据聚类均值,它将对象创建到与其最相似的聚类中。EM 根据定义成员概率的权重将每个对象创建到聚类中。换句话说,聚类之间没有严格的界限。因此,新的均值是根据加权度量来评估的。EM 从组合模型参数的原始估计或“猜测”(统称为参数…… 阅读更多

为什么小波变换对聚类有用?

Ginni
更新于 2021年11月24日 07:10:54

1K+ 次查看

WaveCluster 是一种多分辨率聚类算法,它首先通过将多维网格结构强加到数据空间上来总结记录。它可以使用小波变换来改变原始特征空间,在变换空间中找到密集的域。在这种方法中,每个网格单元总结映射到该单元的一组点的数

什么是基于网格的方法?

Ginni
更新于 2021年11月24日 07:08:44

18K+ 次查看

基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化为有限数量的单元格,这些单元格形成一个网格结构,在该结构上执行所有聚类操作。该方法的优点是其快速的处理时间,这通常与数据对象的数量无关,而仅取决于量化空间中每个维度中的多个单元格。基于网格的方法的一个实例包括 STING,它探索存储在网格单元中的统计数据,WaveCluster,它使用小波变换方法聚类对象,以及 CLIQUE,它定义了一个…… 阅读更多

什么是变色龙?

Ginni
更新于 2021年11月24日 07:01:08

4K+ 次查看

变色龙是一种层次聚类算法,它使用动态建模来决定聚类对之间的相似性。它是在观察到 ROCK 和 CURE 等两种层次聚类算法的已知弱点之后进行修改的。ROCK 及其相关设计强调聚类互连性,同时忽略有关聚类邻近性的数据。CURE 及其相关设计考虑聚类邻近性,但忽略聚类互连性。在变色龙中,聚类相似性是根据聚类内部对象的连接程度和聚类的邻近性来评估的。特别是,如果两个聚类的互连性很高并且它们彼此靠近,则将它们组合在一起。它不基于…… 阅读更多

k-medoids 算法在大数据集上的效率如何?

Ginni
更新于 2021年11月24日 06:56:35

448 次查看

像 PAM 这样的经典 k-medoids 分区算法适用于小型数据集,但在大数据集上的扩展性不佳。为了处理大型数据集,可以使用一种基于采样的方法,称为 CLARA(大型应用程序聚类)。CLARA 背后的方法如下:如果样本以相当随机的方式选择,它必须紧密地定义原始数据集。选择的有代表性的对象(medoids)将类似于从整个数据集中选择的对象。CLARA 从数据集中抽取多个样本,对每个样本应用 PAM,并返回…… 阅读更多

数据挖掘中聚类的要求是什么?

Ginni
更新于 2021年11月24日 06:55:16

7K+ 次查看

数据挖掘中聚类具有以下要求:可扩展性-一些聚类算法适用于小型数据集,包括少于几百个数据对象。大型数据库可能包含数百万个对象。对给定大型数据集样本进行聚类可能会导致部分结果。需要高度可扩展的聚类算法。处理不同类型属性的能力-一些算法旨在对基于区间的(数值)信息进行聚类。但是,应用程序可能需要对多种类型的数据进行聚类,包括二进制数据、分类(名义)数据和有序数据,或者这些数据的组合…… 阅读更多

我们如何进一步提高基于 Apriori 的挖掘效率?

Ginni
更新于 2021年11月24日 06:54:02

11K+ 次查看

已经提出了一些 Apriori 算法的变体,这些变体旨在提高原始算法的效率,如下所示-基于哈希的技术(将项目集哈希到相应的桶中)-可以使用基于哈希的技术来减少候选 k 项目集 Ck 的大小,对于 k > 1。例如,当扫描数据库中的每个事务以从 C1 中的候选 1 项目集创建频繁 1 项目集 L1 时,它可以为每个事务创建一些 2 项目集,将它们哈希(即映射)到哈希表结构的几个桶中,并增加等效桶…… 阅读更多

广告