数据泛化和分析泛化的例子是什么?


数据泛化通过用高级概念(包括年轻、中年和老年)替换相对低级的数值(包括属性年龄的数值)来总结数据。因此,它是一个将数据库中大量与任务相关的信 息从相对较低的概念级别抽象到较高概念级别的过程。

以下是用于高效灵活地泛化大型数据集的两种方法:

**OLAP方法** - 数据立方体技术可以被视为一种基于数据仓库、面向预计算的物化视图方法。它在移动 OLAP 或数据挖掘查询进行处理之前实现离线聚合。

**面向属性的归纳方法** - 这是一种面向关系数据库查询、基于泛化的在线数据分析方法。在面向属性的归纳中,首先使用关系数据库查询收集与任务相关的信 息,然后根据对相关数据集中每个属性的多个不同值的检查来实现泛化。

泛化是通过属性移除来实现的。通过组合相同的泛化元组并累积其各自的计数来实现聚合,从而减小泛化数据集的大小并与用户进行交互式呈现。

面向属性的归纳方法的基本原理:

  • **数据聚焦** - 数据必须与任务相关,例如维度,结果是原始关系。
  • **属性移除** - 如果属性 A 具有大量特定值,但 A 上没有泛化运算符,或者 A 的高级概念是用其他属性定义的,则可以选择相关属性集或移除属性 A。
  • **属性泛化** - 如果属性 A 具有大量不同的值,并且在 A 上存在一组泛化运算符,则选择一个运算符并泛化 A。
  • **分析特征描述** - 这是一种用于预处理数据以过滤掉无关属性或对相关属性进行排序的统计方法。属性相关性分析的度量可以用来分析可以从概念描述过程中取消授权的无关属性。将此预处理步骤包含到类特征描述或比较中定义为分析特征描述。

属性相关性分析的原因

属性相关性分析的几个原因如下:

  • 它可以确定应该包含哪些维度。

  • 它可以实现高水平的泛化。

  • 它可以减少支持我们轻松理解模式的属性数量。

属性相关性分析背后的基本概念是评估一些可以计算属性相对于给定类别或方法的相关性的度量。此类度量包括信息增益、模糊性和相关系数。

更新于:2022年2月15日

1K+ 次浏览

开启您的职业生涯

完成课程获得认证

开始
广告