找到 1861 篇文章 关于数据结构

类比较是如何进行的?

Ginni
更新于 2022年2月16日 11:22:26

953 次浏览

类区分或比较挖掘特征,将目标类与其对比类区分开来。目标类和对比类应该是可比的,前提是它们具有相同的维度和属性。例如,人、地址和元素这三个类是不可比的。但过去三年的销售额是可比的类,计算机科学候选人和物理学候选人也是如此。开发的技术可以继续用于管理多个可比类之间的类比较。例如,可以修改为类特征定义的属性泛化过程,以便在所有比较的类之间同步实现泛化…… 阅读更多

属性泛化的规则是什么?

Ginni
更新于 2022年2月16日 11:19:06

819 次浏览

属性泛化取决于以下规则:如果原始工作关系中某个属性的互异值集合很大,并且存在一组该属性上的泛化算子,则应选择并应用一个泛化算子到该属性。此规则基于以下推理:使用泛化服务泛化工作关系中元组或规则中的属性值将使该规则覆盖更多初始数据元组,从而泛化其定义的概念。这对应于定义为向上泛化的泛化规则…… 阅读更多

什么是 AOI?

Ginni
更新于 2022年2月16日 11:17:56

6K+ 次浏览

AOI 代表属性导向归纳 (Attribute-Oriented Induction)。属性导向归纳的概念描述方法最早于 1989 年提出,比数据立方体方法的引入早几年。数据立方体方法基本上是基于数据的物化视图,这些视图通常已在数据仓库中预先计算。通常,它在提交 OLAP 或数据挖掘查询进行处理之前实现离线聚合。换句话说,属性导向归纳方法通常是一种面向查询、基于泛化、在线数据分析方法。属性导向归纳的一般思想是首先使用数据库查询收集与任务相关的数据,然后…… 阅读更多

数据泛化和概念描述的方法有哪些?

Ginni
更新于 2022年2月16日 11:16:33

727 次浏览

数据泛化通过用更高级别的概念(例如,年轻、中年和老年)替换相对较低级别的值(例如,属性年龄的数值)来汇总数据。鉴于数据库中保存的数据量很大,能够以泛化(而不是低)抽象方法简洁地定义概念是有益的。允许在多个抽象级别上泛化数据集有助于用户检查数据的总体行为。例如,对于 AllElectronics 数据库,销售经理可以更喜欢查看泛化后的数据,而不是检查单个客户交易…… 阅读更多

多维梯度分析中的约束类型有哪些?

Ginni
更新于 2022年2月16日 11:14:48

142 次浏览

维数灾难和对可理解结果的需求对寻找高效且可扩展的 cubegrade 问题解决方案提出了严峻挑战。它可以被限制,但它是 cubegrade 问题的一个有趣的版本,称为约束多维梯度分析。它可以减少搜索空间并得出有趣的结果。以下是一些约束类型:显著性约束 - 这规定它只能测试数据中具有特定“统计显著性”的单元格,包括至少包含定义数量的基本单元格或至少具有特定总销售额的单元格。在数据中…… 阅读更多

异常值是如何计算的?

Ginni
更新于 2022年2月16日 11:07:59

206 次浏览

有三个度量被用作异常指标来帮助识别数据异常。这些度量表示单元格中的数量相对于其预期值的影响程度的意外程度。这些度量针对所有聚合级别计算并与每个单元格关联。它们如下所示,包括 SelfExp、InExp 和 PathExp 度量基于数值表格分析方法。单元格值被视为异常取决于它与预期值的差异程度,其中其预期值由统计模型决定。给定单元格值与其…… 阅读更多

什么是发现驱动探索?

Ginni
更新于 2022年2月16日 11:06:07

922 次浏览

发现驱动探索就是这样一种数据立方体探索方法。在发现驱动探索中,指示数据异常的预计算度量用于指导用户在所有聚合级别的数据分析过程。它将这些度量称为异常指标。直观地说,异常是指与基于统计模型的预期值显著不同的数据立方体单元格值。该模型处理了单元格适用的所有维度上度量值的变异和模式。例如,如果对商品销售数据的分析表明,与几个月相比,12 月份的销售额有所增加,…… 阅读更多

商业分析师从拥有数据仓库中能获得什么?

Ginni
更新于 2022年2月16日 06:55:29

208 次浏览

数据仓库是一种可以收集和处理来自多个来源的数据以向企业提供重要业务洞察的方法。数据仓库是专门为支持管理决策的目的而创建的。简单来说,数据仓库定义了一个独立于组织运营数据库维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过支持用于分析的整合的、历史数据的可靠平台来提供数据处理。数据仓库通过为 OLTP 数据库提供在其累积时卸载记录的地方以及提供…… 阅读更多

数据挖掘中度量是如何计算的?

Ginni
更新于 2022年2月16日 06:51:29

2K+ 次浏览

度量可以组织成三个元素,包括分布式、代数和整体式。这取决于所使用的聚合函数的类型。分布式 - 如果可以按如下所示以分布式方式计算聚合函数,则该函数是分布式的。假设数据独立地划分为 n 个集合。它可以对每个分区使用该服务,从而产生 n 个聚合值。如果使用该函数对 n 个聚合值的结果与使用该函数对整个数据集(无需分区)的结果相同,则可以以分布式方式计算该函数。例如,count() 可以…… 阅读更多

什么是基于熵的离散化?

Ginni
更新于 2022年2月16日 06:45:27

2K+ 次浏览

基于熵的离散化是一种有监督的自顶向下分裂方法。它在计算和保存分割点(用于分离属性范围的数据值)时会探索类分布数据。它可以离散化统计属性 A,该方法选择熵最小的 A 值作为分割点,并递归地划分结果区间以获得分层离散化。特定的离散化形成 A 的概念层次结构。令 D 包括由一组属性和一个类标签属性描述的数据元组。类标签属性支持每个元组的类数据。基于熵的 A 离散化的基本方法是…… 阅读更多

广告