相关系数和协方差之间是什么关系?
简单来说,相关性和协方差都表示两个变量之间的关系和依赖性。
协方差显示了在对变量应用函数时,变量之间线性关系路径的方向。
相反,相关性则衡量了两个变量之间线性关系的强度和方向。
简单来说,相关性是协方差的函数。两者之间的区别在于协方差值未标准化,而相关性值已标准化。两个变量的相关系数可以通过将这两个变量的协方差值除以给定值的标准差的乘积来获得。
协方差是一种定量计算,它显示了一个变量的偏差函数与其均值匹配的程度,以及另一个函数与其均值的偏差匹配的程度。它是一个数学关系,定义为 -
$$\mathrm{Cov(X,Y) = E[(X − E[X])(Y − E[Y])]}$$
在上式中,
如果 X 和 Y 都高于各自的均值,或者如果 X 和 Y 都低于各自的均值,则外部期望内的表达式将为正。
如果一个变量的值高于其均值,而另一个变量的值低于其均值,则该项变为负值。
如果该表达式的平均值为正,则这两个随机变量将具有正相关性。该方程可以改写为 -
$$\mathrm{Cov(X,Y) = E[XY] − E[Y]E[X]}$$
使用此方程并使用两个独立随机变量的乘积等于期望的乘积这一事实,很容易看出如果两个随机变量是独立的,则它们的协方差为 0。
反之则不总是成立 - 如果两个随机变量的协方差值为 0,则它们并不总是独立的!
因此,我们可以写 -
$$\mathrm{Cov(X,Y) = Cov(Y, X)}$$
$$\mathrm{Cov(X, X) = E[X 2 ] − E[X]E[X] = Var(X)}$$
$$\mathrm{Cov(aX + b,Y) = aCov(X,Y)}$$
两个随机变量之间的相关性,由 ρ(X, Y) 表示,是这两个变量的协方差,并通过每个变量的方差进行归一化。这种归一化消除了单位并对度量进行归一化,使其始终在 [0, 1] 范围内 -
$$\mathrm{ρ(X, Y) = Cov(X, Y)\sqrt{Var(X) Var(Y)}}$$
当 ρ(X, Y) = 0 时,如果两个变量彼此独立,则它们的相关性将为 0。