什么是变量转换？

变量转换定义了一种用于变量某些值的转换。换句话说，对于每个对象，都使用该转换来改变该对象的变量值。例如，如果只需要变量的绝对值，则可以通过取绝对值来改变变量的值。

变量转换有两种类型：简单的函数转换和标准化。

简单函数

一个简单的数学函数独立地应用于每个值。如果r是一个变量，则此类转换的示例包括x^k,logx, e^x,$\sqrt{x}$,$\frac{1}{x}$,sinx或 |x|。在统计学中，变量转换，特别是sqrt、log和1/x，用于将不具有高斯（正态）分布的记录转换为具有高斯分布的信息。虽然这可能很重要，但在数据挖掘中其他一些原因可能优先。

假设感兴趣的变量是会话中的数据字节数，字节数范围从1到10亿。这是一个很大的范围，使用log10转换压缩它可能更有利。在这种情况下，传输10⁸和10⁹字节的会话比传输10和1000字节的会话更相似（9 - 8 = 1 与 3 - 1 = 2）。

应谨慎应用变量转换，因为它们会改变数据的性质。如果转换的特性没有得到完全尊重，则可能会出现问题。例如，转换1/x会降低大于等于1的值的显著性，但会增加0到1之间值的显著性。

标准化或归一化

另一种常见的变量转换是变量的标准化或归一化。标准化或归一化的目的是创建一组具有特定属性的值。一个常见的例子是统计学中的“标准化变量”。如果x^’是属性值的平均值，s_x是它们的标准差，则转换x^’ = (x –x^’)/ s_x) 创建一个新的变量，其平均值为0，标准差为1。

如果要以某种方式组合不同的变量，则这种转换通常是必要的，以避免具有较大值的变量支配计算结果。

平均值和标准差受异常值的影响很大，因此上述转换通常会进行修改。首先，平均值被中位数（即中间值）替换。其次，标准差被绝对标准差替换。具体来说，如果r是一个变量，则r的绝对标准差由$\mathrm{\sigma_{A}=\displaystyle\sum\limits_{i=1}^m |X_{i}-\mu|}$给出，其中x_i是变量的第i个值，m是对象的个数，μ是平均值或中位数。

Ginni

更新于： 2022年2月11日

4K+ 浏览量

开启你的职业生涯

通过完成课程获得认证

开始学习