数据挖掘的转换是什么?


数据挖掘是从存储在存储库中的大量数据中提取有用的新关联、模式和趋势的过程,使用包括统计和数学技术的模式识别技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据所有者来说既合乎逻辑又有所帮助的新颖方法汇总记录。

数据挖掘有各种转换,如下所示:

标记正常、异常、超出范围或不可能的事实 - 用特殊标记标记测量的事实可能完全有益。一些测量的事实可能是正确的,但非常不寻常。也许这些事实是基于小样本或特定情况建立的。

其他事实可能存在于数据中,但必须被视为不可能或无法解释的。对于每种情况,最好用状态标记标记数据,以便可以将其约束到分析中或从分析中排除,而不是从表中删除异常值。

处理这些情况的一个好方法是为事实记录创建一个特殊的数据状态维度。它可能需要此维度作为约束并定义每个事实的状态。

从上下文中识别随机值或噪声值并屏蔽 - 前一个转换的一个特例是识别遗留系统何时提供了一个随机数而不是一个真实的事实。当遗留系统不打算传递任何值时,可能会发生这种情况,但缓冲区中剩余的数字已被传递到数据仓库。当识别出这种情况时,应使用空值恢复随机数。

对空值应用统一处理 - 数据挖掘工具对“不存在”和“存在但未知”之间的区别很敏感。在第二种情况下,一些数据挖掘专业人员分配最可能的值或中值,以便事实表记录的其余部分可以参与分析。

这可以在原始数据中通过用估计值覆盖空值来完成,或者可以通过知道如何使用各种分析选项处理空数据的复杂数据挖掘工具来处理。

标记状态已更改的事实记录 - 一个有用的数据转换是在事实表记录中添加一个特殊的状态指示器,以显示该帐户(或客户或产品或位置)的状态刚刚更改或即将更改。状态指示器在星形连接设计中实现为状态维度。

更新于: 2022年2月10日

360 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告