什么是变量转换?


变量转换定义了一种用于变量某些值的转换。换句话说,对于每个对象,都使用该转换来改变该对象的变量值。例如,如果只需要变量的绝对值,则可以通过取绝对值来改变变量的值。

变量转换有两种类型:简单的函数转换和标准化。

简单函数

一个简单的数学函数独立地应用于每个值。如果r是一个变量,则此类转换的示例包括xk,logx, ex,x,1x,sinx或 |x|。在统计学中,变量转换,特别是sqrt、log和1/x,用于将不具有高斯(正态)分布的记录转换为具有高斯分布的信息。虽然这可能很重要,但在数据挖掘中其他一些原因可能优先。

假设感兴趣的变量是会话中的数据字节数,字节数范围从1到10亿。这是一个很大的范围,使用log10转换压缩它可能更有利。在这种情况下,传输108和109字节的会话比传输10和1000字节的会话更相似(9 - 8 = 1 与 3 - 1 = 2)。

应谨慎应用变量转换,因为它们会改变数据的性质。如果转换的特性没有得到完全尊重,则可能会出现问题。例如,转换1/x会降低大于等于1的值的显著性,但会增加0到1之间值的显著性。

标准化或归一化

另一种常见的变量转换是变量的标准化或归一化。标准化或归一化的目的是创建一组具有特定属性的值。一个常见的例子是统计学中的“标准化变量”。如果x是属性值的平均值,sx是它们的标准差,则转换x = (x –x)/ sx) 创建一个新的变量,其平均值为0,标准差为1。

如果要以某种方式组合不同的变量,则这种转换通常是必要的,以避免具有较大值的变量支配计算结果。

平均值和标准差受异常值的影响很大,因此上述转换通常会进行修改。首先,平均值被中位数(即中间值)替换。其次,标准差被绝对标准差替换。具体来说,如果r是一个变量,则r的绝对标准差由σA=mi=1|Xiμ|给出,其中xi是变量的第i个值,m是对象的个数,μ是平均值或中位数。

更新于: 2022年2月11日

4K+ 浏览量

开启你的职业生涯

通过完成课程获得认证

开始学习
广告