什么是数据转换?


在数据转换中,数据被转换或组合成适合挖掘的形式。数据转换可能包括以下内容:

平滑处理 - 它可以用于去除数据中的噪声。此类方法包括分箱、回归和聚类。

聚合 - 在聚合中,对数据应用汇总或聚合操作。例如,可以对每日销售数据进行聚合以计算每月和每年的总金额。此阶段通常用于创建数据立方体,以便在多个粒度级别上分析数据。

泛化 - 在泛化中,通过使用概念层次结构将低级或“原始”(原始)数据还原为更高级别的概念。例如,诸如街道之类的分类属性可以泛化为诸如城市或国家之类的更高级别的概念。类似地,数值属性(如年龄)的值可以映射到更高级别的概念,如青年、中年和老年。

归一化 - 在归一化中,属性数据被缩放以落入一个小指定的范围内,例如 -1.0 到 1.0 或 0.0 到 1.0。

属性构造 - 在属性构造中,从给定的属性集中开发和添加新的属性以促进挖掘过程。

平滑处理是数据清理的一种形式,在数据清理过程中已解决,用户在其中指定转换以更正数据不一致性。聚合和泛化提供作为数据减少的形式。通过缩放其值以使其在指定的小范围内下降(包括 0.0 到 1.0)来归一化属性。

归一化对于包含神经网络或距离度量(如最近邻分类和聚类)的分类算法特别有用。如果使用神经网络反向传播算法进行分类挖掘,则归一化训练元组中测量的每个属性的输入值将有助于加快学习阶段。

对于基于距离的方法,归一化有助于防止最初范围较大的属性(例如,收入)超过最初范围较小的属性(例如,二元属性)。数据归一化的方法有很多,如下所示:

最小-最大归一化 - 它对原始数据实现线性变换。假设 minA 和 maxA 是属性 A 的最小值和最大值。最小-最大归一化将 A 的值 v 映射到范围 [new_minA , new_maxA ] 中的 v,方法是计算

$$v'=\frac{v-min_{A}}{max_{A}-min_{A}}(new\_max_{A}- new\_min_{A})+new\_min_{A}$$

Z 分数归一化 - 在 Z 分数归一化(或零均值归一化)中,属性 A 的值根据 A 的均值和标准差进行归一化。通过计算将 A 的值 v 归一化为 v

$$v'=\frac{v-A^{'}}{\sigma_{A}}$$

其中 A 和 σA 分别是属性 A 的均值和标准差。当属性 A 的实际最小值和最大值未知,或者存在支配最小-最大归一化的异常值时,此归一化方法很有用。

十进制缩放 - 通过十进制缩放进行归一化通过更改属性 A 的值的十进制点来进行归一化。移动的小数点位数基于 A 的最大绝对值。通过计算将 A 的值 v 归一化为 v

$$v'=\frac{v}{10^{j}}$$

其中 j 是使得 Max (|v|)<1 的最小整数。

更新于: 2021 年 11 月 19 日

1K+ 浏览量

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.