什么是变量转换?
变量转换定义了一种用于变量某些值的转换。换句话说,对于每个对象,都使用该转换来改变该对象的变量值。例如,如果只需要变量的绝对值,则可以通过取绝对值来改变变量的值。
变量转换有两种类型:简单的函数转换和标准化。
简单函数
一个简单的数学函数独立地应用于每个值。如果r是一个变量,则此类转换的示例包括xk,logx, ex,√x,1x,sinx或 |x|。在统计学中,变量转换,特别是sqrt、log和1/x,用于将不具有高斯(正态)分布的记录转换为具有高斯分布的信息。虽然这可能很重要,但在数据挖掘中其他一些原因可能优先。
假设感兴趣的变量是会话中的数据字节数,字节数范围从1到10亿。这是一个很大的范围,使用log10转换压缩它可能更有利。在这种情况下,传输108和109字节的会话比传输10和1000字节的会话更相似(9 - 8 = 1 与 3 - 1 = 2)。
应谨慎应用变量转换,因为它们会改变数据的性质。如果转换的特性没有得到完全尊重,则可能会出现问题。例如,转换1/x会降低大于等于1的值的显著性,但会增加0到1之间值的显著性。
标准化或归一化
另一种常见的变量转换是变量的标准化或归一化。标准化或归一化的目的是创建一组具有特定属性的值。一个常见的例子是统计学中的“标准化变量”。如果x’是属性值的平均值,sx是它们的标准差,则转换x’ = (x –x’)/ sx) 创建一个新的变量,其平均值为0,标准差为1。
如果要以某种方式组合不同的变量,则这种转换通常是必要的,以避免具有较大值的变量支配计算结果。
平均值和标准差受异常值的影响很大,因此上述转换通常会进行修改。首先,平均值被中位数(即中间值)替换。其次,标准差被绝对标准差替换。具体来说,如果r是一个变量,则r的绝对标准差由σA=m∑i=1|Xi−μ|给出,其中xi是变量的第i个值,m是对象的个数,μ是平均值或中位数。