数据概化和概念描述的方法是什么?


数据概化通过用更高级别的概念(例如,年轻、中年和老年)替换相对低级别的值(例如,属性年龄的数值)来概括数据。鉴于数据库中保存的大量数据,能够以概括的(而不是低级别的)抽象方法以简洁明了的术语定义概念是有益的。

它允许数据集在多个抽象级别上进行概化,这有助于用户检查数据的总体行为。例如,给定 AllElectronics 数据库,销售经理可以更倾向于查看概括到更高级别的的数据,包括按地理区域汇总的用户组、每个组的购买频率和用户收入。这使我们想到了概念描述的概念,概念描述是一种数据概化形式。

一个概念通常被定义为一组数据,包括常客、研究生等。作为一项数据挖掘任务,概念描述不是数据的简单枚举。相反,概念描述生成用于描述和比较数据的描述。当要定义的概念是一类对象时,它也称为类描述。

特征描述支持对给定数据集的简洁明了的总结,而概念或类比较(也称为区分)支持比较两个或多个数据集的描述。有以下几种情况:-

复杂数据类型和聚合 - 数据仓库和 OLAP 工具依赖于多维数据模型,该模型以数据立方体的形式查看信息,包括维度(或属性)和度量(聚合服务)。

但是,一些当前的 OLAP 系统将维度限制为非数值记录,并将度量限制为数值信息。数据库可以包含多种数据类型的属性,例如数值、非数值、空间、文本或图像,这些属性必须包含在概念描述中。

用户控制与自动化 - 数据仓库中的联机分析处理是一个用户控制的阶段。维度的选择和 OLAP 服务的软件,包括钻取、上卷、切片和切块,通常由用户指导和管理。

尽管一些 OLAP 系统中的控制非常人性化,但用户确实需要对每个维度的重要性有很好的理解。此外,为了找到信息的满意描述,用户可能需要定义一系列长的 OLAP 操作。

需要一个更自动化的阶段来帮助用户确定哪些维度(或属性)必须包含在分析中,以及必须概括给定数据集的程度,以便创建记录的有趣摘要。

更新于: 2022-02-16

725 次浏览

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.