1K+ 次查看
Apriori 是一种由 R. Agrawal 和 R. Srikant 于 1994 年开发的开创性算法,用于挖掘布尔关联规则的频繁项集。该算法依赖于算法需要先前了解频繁项集属性的情况。Apriori 使用称为逐层搜索的迭代方法,其中 k-项集可以探索 (k+1)-项集。首先,通过浏览数据库来收集每个项目的计数,并接收满足最小支持度的项目,从而发现频繁 1-项集的集合。结果集表示为 L1。接下来,L1 可以找到 L2,即频繁 2-项集的集合,它可以找到 L3,依此类推,直到没有更多…… 阅读更多
频繁模式挖掘有几个标准,如下所示:基于要挖掘的模式的完整性 - 它可以挖掘所有频繁项集、封闭频繁项集和最大频繁项集的集合,前提是提供了最小支持度阈值。它还可以提取受约束的频繁项集(它可以满足一组用户定义的约束)、近似频繁项集(它可以仅更改挖掘的频繁项集的近似支持度计数)、近似匹配频繁项集(它可以计算相对匹配项集的支持度计数)、前 k 个频繁项集(即用户指定的 k 个最频繁项集)…… 阅读更多
953 次查看
类判别或比较挖掘将目标类与其对比类区分开来的特征。目标类和对比类应具有可比性,前提是它们共享相同的维度和属性。例如,人、地址和元素这三个类不可比。但过去三年的销售额是可比的类别,计算机科学候选人和物理学候选人也是如此。开发的技术可以继续用于管理多个可比类别之间的类比较。例如,为类特征定义的属性泛化过程可以更改,以便在所有比较的类之间同步执行泛化。…… 阅读更多
819 次查看
属性泛化取决于以下规则:如果原始工作关系中某个属性的不同的值集合很大,并且存在一组该属性的泛化运算符,则应选择并将其应用于该属性。此规则取决于以下推理。使用泛化服务来泛化工作关系中元组或规则中的属性值将使规则涵盖更多初始数据元组,从而泛化其定义的概念。这对应于定义为攀升泛化的泛化规则…… 阅读更多
6K+ 次查看
AOI 代表面向属性的归纳。面向属性的归纳方法的概念描述首次提出于 1989 年,比数据立方体方法的引入早几年。数据立方体方法本质上是基于数据的物化视图,这些视图通常已在数据仓库中预先计算。一般来说,它在提交 OLAP 或数据挖掘查询以进行处理之前执行脱机聚合。换句话说,面向属性的归纳方法通常是一种面向查询、基于泛化、在线数据分析方法。面向属性的归纳的一般思想是首先使用数据库查询收集与任务相关的数据,然后…… 阅读更多
727 次查看
数据泛化通过用更高级别的概念(例如年轻、中年和老年)替换相对低级别的值(例如属性年龄的数值)来概括数据。鉴于数据库中保存的大量数据,能够以泛化(而不是低)抽象方法简洁而简洁地定义概念是有益的。它允许数据集在多个抽象级别上进行泛化,使用户能够检查数据的总体行为。例如,给定 AllElectronics 数据库,销售经理可以更喜欢查看泛化的数据,而不是检查单个客户交易…… 阅读更多
142 次查看
维度灾难和对可理解结果的需求对找到立方体渐变问题的有效且可扩展的解决方案提出了严峻挑战。它可以限制但有趣的立方体渐变问题版本,称为约束多维梯度分析。它可以缩小搜索空间并得出有趣的结果。以下是一些约束类型:显著性约束 - 这规定它只能测试数据中具有特定“统计显著性”的单元格,包括包含至少定义数量的基本单元格或至少特定总销售额。在数据…… 阅读更多
206 次查看
有三个度量标准用作异常指示器,以支持识别数据异常。这些度量表示单元格中的数量相对于其预期值产生的意外程度。这些度量是在所有聚合级别为每个单元格计算和关联的。它们如下,包括 SelfExp、InExp 和 PathExp 度量基于表格分析的数值方法。单元格值被视为异常取决于它与预期值的差异程度,其中其预期值由统计模型确定。给定单元格值与其…… 阅读更多
922 次查看
发现驱动的探索就是这样一种立方体探索方法。在发现驱动的探索中,指示数据异常的预先计算的度量用于在所有聚合级别指导用户进行数据分析过程。将这些度量称为异常指示器。直观地说,异常是与基于统计模型的预期值显着不同的数据立方体单元格值。该模型处理了单元格适用的所有维度的度量值的变化和模式。例如,如果对商品销售数据的分析发现 12 月的销售额与几个月相比有所增加,…… 阅读更多
208 次查看
数据仓库是一种可以从多个来源收集和处理数据以提供业务重要业务洞察力的方法。数据仓库专门为支持管理决策的目标而创建。简单来说,数据仓库定义了一个与组织的操作数据库独立维护的数据库。数据仓库系统能够集成多个应用程序系统。它们通过为分析提供可靠的合并历史数据平台来提供数据处理。数据仓库通过为 OLTP 数据库提供一个随着其累积而卸载记录的位置,并通过提供…… 阅读更多