找到关于数据结构的1861 篇文章

如何进行类比较?

Ginni
更新于 2022年2月16日 11:22:26

953 次浏览

类判别或比较挖掘特征,将目标类与其对比类区分开来。目标类和对比类应该是可比较的,前提是它们具有相同的维度和属性。例如,人、地址和元素这三个类是不可比较的。但过去三年的销售额是可比较的类,计算机科学候选人和物理学候选人也是如此。所开发的技术可以继续用于管理多个可比较类之间的类比较。例如,可以修改为类特征定义的属性泛化过程,以便在所有比较的类之间同步实现泛化…… 阅读更多

属性泛化的规则是什么?

Ginni
更新于 2022年2月16日 11:19:06

819 次浏览

属性泛化取决于以下规则:如果在原始工作关系中,某个属性的离散值集合很大,并且存在一组该属性的泛化运算符,则应选择并应用一个泛化运算符到该属性。此规则取决于以下推理。使用泛化服务来泛化工作关系中元组或规则中的属性值将使该规则涵盖更多初始数据元组,从而泛化它定义的概念。这对应于定义为向上泛化的泛化规则…… 阅读更多

什么是 AOI?

Ginni
更新于 2022年2月16日 11:17:56

6K+ 次浏览

AOI 代表属性导向归纳 (Attribute-Oriented Induction)。属性导向归纳的概念描述方法最早于 1989 年提出,比数据立方体方法的引入早几年。数据立方体方法基本上是基于数据的物化视图,这些视图通常已在数据仓库中预先计算。一般来说,它在提交 OLAP 或数据挖掘查询进行处理之前实现离线聚合。换句话说,属性导向归纳方法通常是一种面向查询的、基于泛化的、在线数据分析方法。属性导向归纳的总体思路是首先使用数据库查询收集任务相关数据,然后…… 阅读更多

数据泛化和概念描述的方法有哪些?

Ginni
更新于 2022年2月16日 11:16:33

727 次浏览

数据泛化通过用更高级别的概念(例如年轻、中年和老年)替换相对低级别的值(例如属性年龄的数值)来总结数据。鉴于数据库中保存了大量数据,能够以更高级别(而不是低级别)的抽象方法来简洁地定义概念是有益的。它允许在多个抽象级别上对数据集进行泛化,从而方便用户检查数据的总体行为。例如,对于 AllElectronics 数据库,销售经理可以更倾向于查看泛化后的数据,而不是检查单个客户交易…… 阅读更多

多维梯度分析中的约束类型有哪些?

Ginni
更新于 2022年2月16日 11:14:48

142 次浏览

维度灾难和对可理解结果的需求对寻找高效且可扩展的 cubegrade 问题解决方案构成了严峻挑战。它可以被限制,但有趣的 cubegrade 问题版本,称为约束多维梯度分析。它可以缩小搜索空间并得出有趣的结果。以下是一些约束类型:显著性约束 - 这规定它只能测试数据中具有特定“统计显著性”的单元格,包括至少包含定义数量的基本单元格或至少具有特定总销售额。在数据中…… 阅读更多

异常值是如何计算的?

Ginni
更新于 2022年2月16日 11:07:59

206 次浏览

有三个度量被用作异常指标,以支持识别数据异常。这些度量表示单元格中数量的影响程度,关于其预期值。这些度量针对所有聚合级别计算并与每个单元格关联。它们如下所示,包括 SelfExp、InExp 和 PathExp 度量基于表格分析的数值方法。单元格值是否被视为异常取决于它与预期值的差异程度,其中其预期值由统计模型决定。给定单元格值与其…… 阅读更多

什么是发现驱动探索?

Ginni
更新于 2022年2月16日 11:06:07

922 次浏览

发现驱动探索就是这样一种数据立方体探索方法。在发现驱动探索中,指示数据异常的预计算度量用于在所有聚合级别上指导用户进行数据分析过程。它将这些度量称为异常指标。直观地说,异常是指与基于统计模型的预期值显著不同的数据立方体单元格值。该模型处理了度量值在单元格所适用的所有维度上的变化和模式。例如,如果对商品销售数据的分析表明,与几个月相比,12 月份的销售额有所增加,…… 阅读更多

商业分析师从拥有数据仓库中能获得什么?

Ginni
更新于 2022年2月16日 06:55:29

208 次浏览

数据仓库是一种可以收集和处理来自多个来源的数据的方法,从而为企业提供重要的业务洞察力。数据仓库专门是为了支持管理决策而创建的。简单来说,数据仓库定义了一个独立于组织运营数据库维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过支持整合的、历史数据的可靠平台进行分析来提供数据处理。数据仓库通过为 OLTP 数据库提供随着数据累积而卸载记录的地方,并提供…… 阅读更多

在数据挖掘中,度量是如何计算的?

Ginni
更新于 2022年2月16日 06:51:29

2K+ 次浏览

度量可以组织成三个要素,包括分布式、代数式和整体式。这取决于所使用的聚合函数的类型。分布式 - 如果可以按如下方式以分布式方式计算聚合函数,则该函数是分布式的。考虑将数据独立划分为 n 个集合。它可以使用该服务到每个分区,得到 n 个聚合值。如果使用该函数对 n 个聚合值进行更改的结果与使用该函数对整个数据集(不进行分区)得到的结果相同,则可以以分布式方式计算该函数。例如,count() 可以…… 阅读更多

什么是基于熵的离散化?

Ginni
更新于 2022年2月16日 06:45:27

2K+ 次浏览

基于熵的离散化是一种监督的、自顶向下的分割方法。它在计算和保留分割点(用于分离属性范围的数据值)的过程中,会利用类分布数据。它可以离散化一个统计属性A,该方法选择熵值最小的A值作为分割点,并递归地划分生成的区间,从而形成分层离散化。具体的离散化形成属性A的概念层次结构。设D包含由一组属性和一个类标签属性描述的数据元组。类标签属性支持每个元组的类数据。基于熵的…阅读更多

广告