找到关于数据库的6705 篇文章

什么是基于网格的方法?

Ginni
更新于 2021-11-24 07:08:44

18K+ 浏览量

基于网格的聚类方法使用多分辨率网格数据结构。它将对象区域量化为有限数量的单元格,这些单元格形成一个网格结构,在该结构上实现所有聚类操作。该方法的优点是其快速的处理时间,通常与数据对象的数量无关,而仅取决于量化空间中每个维度中的多个单元格。基于网格的方法的一个实例涉及 STING,它探索存储在网格单元格中的统计数据,WaveCluster,它使用小波变换方法聚类对象,以及 CLIQUE,它定义了一个… 阅读更多

什么是变色龙算法?

Ginni
更新于 2021-11-24 07:01:08

4K+ 浏览量

变色龙是一种层次聚类算法,它使用动态建模来确定簇对之间的相似性。它是基于对 ROCK 和 CURE 等两种层次聚类算法观察到的缺点而改进的。ROCK 及其相关设计强调簇的互连性,而忽略了关于簇邻近性的数据。CURE 及其相关设计考虑了簇的邻近性,但忽略了簇的互连性。在变色龙中,簇的相似性是根据簇内对象的连接程度以及簇的邻近性来评估的。特别是,如果两个簇的互连性高且彼此靠近,则将它们合并。它不基于… 阅读更多

k-medoids 算法在大数据集上的效率如何?

Ginni
更新于 2021-11-24 06:56:35

448 浏览量

像 PAM 这样的经典 k-medoids 分区算法对于小数据集可以有效工作,但对于大型数据集来说扩展性不佳。它可以处理更高数据量,一种基于采样的方法,称为 CLARA(聚类大型应用程序),可以被使用。CLARA 背后的方法如下:如果样本以相当随机的方式选择,它必须密切定义原始数据集。选择的代表对象(类中心)将类似于从整个数据集中选择的那些。CLARA 从数据集中抽取几个样本,对每个样本应用 PAM,并返回… 阅读更多

数据挖掘中聚类的要求是什么?

Ginni
更新于 2021-11-24 06:55:16

7K+ 浏览量

数据挖掘中聚类有以下要求:可扩展性 - 一些聚类算法在小型数据集上效果很好,包括少于几百个数据对象。一个巨大的数据库可以包含数百万个对象。对给定大型数据集样本进行聚类会导致部分结果。需要高度可扩展的聚类算法。能够处理不同类型的属性 - 一些算法被设计用来聚类基于区间的(数值)信息。但是,应用程序可能需要对几种类型的数据进行聚类,包括二进制、分类(名义)和有序数据,或者这些数据的组合… 阅读更多

我们如何进一步提高基于 Apriori 的挖掘的效率?

Ginni
更新于 2021-11-24 06:54:02

11K+ 浏览量

Apriori 算法有一些已被提出的变体,它们的目标是提高原始算法的效率,如下所示:基于散列的技术(将项集散列到相应的桶中) - 基于散列的技术可用于减少候选 k-项集 Ck 的大小,其中 k > 1。例如,当扫描数据库中的每个事务以从 C1 中的候选 1-项集创建频繁 1-项集 L1 时,它可以为每个事务创建一些 2-项集,将它们散列(即映射)到散列表结构的多个桶中,并增加等效的桶… 阅读更多

OLAP 中有哪些基于 Web 的工具?

Ginni
更新于 2021-11-24 06:46:10

1K+ 浏览量

有各种基于 Web 的工具,如下所示:Arbor Essbase Web - 此工具提供向上、向下、横向钻取;切片和切块以及强大的报告功能,所有这些功能都适用于 OLAP。它还提供数据输入,例如完整的多用户并发写入功能。Arbor Essbase 只是一个服务器产品,没有用户包存在,因此确保了自己的桌面客户端版本市场。Web 产品不会恢复管理和开发结构,但它只会恢复用户对查询和更新的访问权限。Information Advantage Web OLAP - 此产品使用以服务器为中心的邮件架构,由一个强大的分析引擎组成… 阅读更多

OLAP 的特点是什么?

Ginni
更新于 2021-11-24 06:44:24

6K+ 浏览量

FASMI 测试它可以用特定的方法表示 OLAP 应用程序的特点,而无需规定它应该如何执行。快速 - 它定义了系统旨在在大约 5 秒内向用户生成大部分响应,其中可理解的分析不超过 1 秒,很少有超过 20 秒。荷兰的独立研究表明,最终用户认为如果在 30 秒内未收到结果,则过程已下降,并且他们适合点击“ALT+Ctrl+Delete”,除非系统需要他们报告需要更长时间。分析 - 它… 阅读更多

什么是层次方法?

Ginni
更新于 2021-11-24 06:43:12

5K+ 浏览量

层次聚类技术通过将数据对象组合成一个簇树来工作。层次聚类算法可以是自上而下或自下而上的。真正的层次聚类方法的质量会因其无法在合并或拆分决策完成后执行调整而下降。簇的合并基于簇之间的距离。簇之间距离的常用度量如下,其中 mi 是簇 Ci 的平均值,ni 是 Ci 中的点数,|p – p’| 是两个点 p 和 p’之间的距离。层次聚类方法的类型有… 阅读更多

离群点检验是如何工作的?

Ginni
更新于 2021-11-24 06:38:13

330 浏览量

统计离群点检验分析两个假设;一个工作假设和一个不同的假设。工作假设 H 是一个陈述,即 n 个对象的整个数据集来自初始分布模型 F,即 H:oi Î F,其中 i = 1, 2, n。如果没有任何统计上重要的证据支持拒绝该假设,则保留该假设。离群点检验检查对象 oi 是否相对于分布 F 基本上过大(或过小)。基于对数据的可用知识,已经提出了不同的检验统计量用于作为离群点检验。假设一些统计量… 阅读更多

聚类的方法有哪些?

Ginni
更新于 2021-11-24 06:36:03

2K+ 浏览量

聚类方法有很多,如下所示:分区方法 - 给定一个包含 n 个对象或数据元组的数据库,分区方法将信息组装成 k 个分区,其中每个分区定义一个簇,并且 k < n。它可以将数据分配到 k 个组中,这些组可以满足以下必要条件:每个组必须至少包含一个对象。每个对象都应该准确地应用于一个组。给定 k,要构造的分区的数量,分区方法会进行初始分区。然后它使用迭代重定位方法,该方法试图通过转换… 阅读更多

广告