找到 6705 篇文章 关于数据库

什么是基于网格的方法?

Ginni
更新于 2021-11-24 07:08:44

18K+ 浏览量

基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化为有限数量的单元格,这些单元格形成网格结构,所有聚类操作都在该结构上实现。该方法的优点是其快速的处理时间,通常与数据对象的数量无关,而仅取决于量化空间中每个维度中的多个单元格。基于网格的方法的一个实例包括 STING,它探索存储在网格单元格中的统计数据,WaveCluster,它使用小波变换方法聚类对象,以及 CLIQUE,它定义了一个…… 阅读更多

什么是变色龙算法?

Ginni
更新于 2021-11-24 07:01:08

4K+ 浏览量

变色龙是一种层次聚类算法,它使用动态建模来确定簇对之间的相似性。它是基于对 ROCK 和 CURE 等两种层次聚类算法观察到的弱点进行修改而产生的。ROCK 及其相关设计强调簇的互连性,而忽略了关于簇接近性的数据。CURE 及其相关设计考虑簇的接近性,但忽略了簇的互连性。在变色龙中,簇的相似性是根据对象在簇内连接的程度以及簇的接近程度来评估的。特别是,如果两个簇的互连性很高且彼此靠近,则将它们合并。它不基于…… 阅读更多

k-medoids 算法在大数据集上的效率如何?

Ginni
更新于 2021-11-24 06:56:35

448 浏览量

像 PAM 这样的经典 k-medoids 分区算法对于小数据集可以有效地工作,但对于大型数据集来说扩展性不佳。它可以处理更高数据量的数据集,一种基于采样的方法,称为 CLARA(大型应用聚类),可以使用。CLARA 背后的方法如下:如果样本以相当随机的方式选择,它必须紧密地定义原始数据集。所选择的代表性对象(类中心)将类似于从整个数据集中选择的那些对象。CLARA 从数据集中抽取多个样本,对每个样本应用 PAM,并返回…… 阅读更多

数据挖掘中聚类的要求是什么?

Ginni
更新于 2021-11-24 06:55:16

7K+ 浏览量

数据挖掘中聚类有以下要求:可扩展性 - 一些聚类算法在小型数据集上运行良好,包括少于几百个数据对象。一个大型数据库可能包含数百万个对象。对给定大型数据集的样本进行聚类会导致部分结果。需要高度可扩展的聚类算法。能够处理不同类型的属性 - 一些算法旨在对基于区间的(数值)信息进行聚类。但是,应用程序可能需要对多种类型的数据进行聚类,包括二元数据、分类(名义)数据和有序数据,或者这些数据的组合…… 阅读更多

我们如何进一步提高基于 Apriori 的挖掘效率?

Ginni
更新于 2021-11-24 06:54:02

11K+ 浏览量

一些 Apriori 算法的变体已经被提出,旨在提高原始算法的效率,如下所示:基于散列的技术(将项集散列到相应的桶中) - 基于散列的技术可以用来减少候选 k-项集 Ck 的大小,对于 k > 1。例如,当扫描数据库中的每个事务以从 C1 中的候选 1-项集创建频繁 1-项集 L1 时,它可以为每个事务创建一些 2-项集,将它们散列(即映射)到散列表结构的多个桶中,并增加等效的桶…… 阅读更多

OLAP 中有哪些基于 Web 的工具?

Ginni
更新于 2021-11-24 06:46:10

1K+ 浏览量

有各种基于 Web 的工具,如下所示:Arbor Essbase Web - 此工具提供向上、向下、横向钻取;切片和切块以及强大的报表功能,所有这些都适用于 OLAP。它还提供数据输入,例如完整的多用户并发写入功能。Arbor Essbase 只是一个服务器产品,没有用户包存在,因此保证了自己的桌面客户端版本市场。Web 产品不恢复管理和开发结构,但它仅恢复用户对查询和更新的访问权限。Information Advantage Web OLAP - 此产品使用以服务器为中心的信使架构,由一个强大的分析引擎组成…… 阅读更多

OLAP 的特点是什么?

Ginni
更新于 2021-11-24 06:44:24

6K+ 浏览量

FASMI 测试它可以以特定方法表示 OLAP 应用程序的特征,而无需规定其执行方式。快速 - 它定义了系统旨在在约五秒内向用户提供大多数响应,其中可理解的分析不超过一秒,很少有超过 20 秒。荷兰的独立研究表明,最终用户认为如果 30 秒内未收到结果,则过程已下降,并且他们适合点击“ALT+Ctrl+Delete”,除非系统需要他们该报告需要更长时间。分析 - 它…… 阅读更多

什么是层次方法?

Ginni
更新于 2021-11-24 06:43:12

5K+ 浏览量

层次聚类技术通过将数据对象组合成一个簇树来工作。层次聚类算法是自上而下或自下而上的。真实的层次聚类方法的质量因其无法在合并或拆分决策完成后执行调整而下降。簇的合并基于簇之间的距离。簇之间距离的广泛使用度量如下,其中 mi 是簇 Ci 的平均值,ni 是 Ci 中的点数,|p – p’| 是两点 p 和 p’ 之间的距离。层次聚类方法的类型有…… 阅读更多

离群值检验是如何工作的?

Ginni
更新于 2021-11-24 06:38:13

330 浏览量

统计离群值检验分析两个假设;工作假设和备择假设。工作假设 H 是一个陈述,即 n 个对象的整个数据集来自初始分布模型 F,即 H:oi Î F,其中 i = 1, 2, n。如果没有任何统计上重要的证据支持拒绝该假设,则保留该假设。离群值检验检查对象 oi 是否相对于分布 F 基本上是大(或小)。基于对数据的可用知识,已经提出了不同的检验统计量用于离群值检验。假设一些统计量…… 阅读更多

聚类的方法有哪些?

Ginni
更新于 2021-11-24 06:36:03

2K+ 浏览量

聚类方法有很多,如下所示:- 分区方法 - 给定一个包含 n 个对象或数据元组的数据库,分区方法将信息分成 k 个分区,其中每个分区定义一个聚类,并且 k < n。它可以将数据分配到 k 个组中,这些组可以满足以下必要条件:- 每个组必须至少包含一个对象。- 每个对象都应准确地应用于一个组。给定 k(要构造的分区的数量),分区方法会进行初始分区。然后,它使用迭代重定位方法,尝试通过转换…… 阅读更多

广告