卡尔·皮尔逊相关系数
相关系数
相关系数通常用于统计学中,以衡量两个变量之间的关系。相关性通常表示两个变量(例如 X 和 Y)之间线性关系程度的特定值。统计学中使用了许多类型的相关系数。然而,卡尔·皮尔逊相关系数(也称为皮尔逊 R)是线性回归中最常用的相关系数。
相关系数的类型
根据变量之间关系的方向,相关性可分为三种类型:
正相关 (0 到 +1)
负相关 (0 到 -1)
零相关 (0)
正相关 (0 到 +1)
在这种情况下,X 和 Y 之间两个函数的变化方向或发生方向相同。例如,燃煤量的增加会导致燃煤动力火车中燃烧的电力数量增加。
负相关 (0 到 -1)
在这种情况下,X 和 Y 变量之间的变化方向相反。例如,随着商品价格上涨,其需求下降。
零相关 (0)
在零相关的情况下,变量之间没有关系。例如,食物摄入量的增加不会影响一个人的驾驶能力。
皮尔逊相关系数
卡尔·皮尔逊相关系数是一种常用的数学方法,其中使用数值表示来衡量两个线性相关变量之间关系的程度。相关系数用“r”表示。
实际平均数法
在实际平均数法中,它表示为
$\mathrm{r\:=\:\frac{\sum\:(X\:-\:\bar{X})\:(Y\:-\:\bar{Y})}{\sqrt{\sum\:(X\:-\:\bar{X})^{2}}\:\sqrt{\sum\:(Y\:-\:\bar{Y})^{2}}}}$
其中,$\mathrm{\bar{X}\:=\:X\:变量的平均数}$
$\mathrm{\bar{Y}\:=\:Y\:变量的平均数}$
这种皮尔逊相关的表达方法称为实际平均数法。
假设平均数法
还有一种称为假设平均数法的方法来表达相关系数。假设平均数法表示为
假设平均数法
$\mathrm{d_{x}\:=\:X\:-\:A}$
$\mathrm{d_{y}\:=\:Y\:-\:A}$
$\mathrm{r\:=\:\frac{N\:\sum\:d_{x}\:d_{y}\:-\:(\sum\:d_{x})\:(\sum\:d_{y})}{\sqrt{N\:\sum\:d_x^2\:-\:(\sum\:d_{x})^{2}}\:\sqrt{N\:\sum\:d_y^2\:-\:(\sum\:d_{y})^{2}}}}}$
在这个卡尔·皮尔逊相关公式中:
dx = x 系列与假设平均数的偏差,其中 (X - A)
dy = Y 系列与假设平均数的偏差 = (Y - A)
Σdx.dy 表示多个 dx 和 dy 的总和。
Σdx² 是 dx 平方和。
Σdy² 是 dy 平方和。
Σdx 是 X 系列偏差的总和。
Σdy 是 Y 系列的总和,并且
N 是成对观测的数量。
步进偏差法
表示为
$\mathrm{r\:=\:\frac{dX^{'}\:dY^{'}\:-\:\frac{\sum\:d^{'}\:X\:\sum\:d\:Y^{'}}{N}}{\sqrt{(\sum\:d\:x^{1})^{2}\:-\:\frac{(\sum\:d\:x^{1})^{2}}{N}}\:\sqrt{(\sum\:d\:y^{'})^{2}\:-\:\frac{(\sum\:d\:y^{'})^{2}}{N}}}}$
在这个特定的卡尔·皮尔逊方法中:
dx′=dxC1
dy′=dyC2
C1 = x 系列的公因子
C2 = y 系列的公因子
dx 是 x 系列与假设平均数的偏差,其中 (X - A)
dy 是 Y 系列与假设平均数的偏差,其中 (Y - A)
Σdx.dy 表示多个 dx 和 dy 的总和。
Σdx² 是 dx 平方和。
Σdy² 是 dy 平方和。
Σdx 是 X 系列偏差的总和。
Σdy 是 Y 系列的总和。
N 是成对观测的数量。
卡尔·皮尔逊相关系数的主要特征
相关系数 (r) 没有单位。
如果 r 为正值,则表示 X 和 Y 方向相同。
如果 r 为负值,则表示 X 和 Y 方向相反。
如果 r 的值为 0,则 X 和 Y 不相关。
r 值越高,表示两个变量之间的线性关系越强。
r 值越低,表示两个变量之间的关系越弱。
如果 r 的值为 +1 或 -1,则两个变量之间的相关性被认为是完美的。
卡尔·皮尔逊相关系数的假设
计算卡尔·皮尔逊相关系数时,必须做出一些假设。
以下是两个主要假设:
任何两个变量之间始终存在线性关系。
必须将异常值保持在最小范围内或完全去除。
异常值是不常用的数据,与其余数据形成鲜明对比。它可能表示实际上不适合该集合的极端数据。可以通过将数据绘制在图表纸上并查找任何极端研究来发现异常值。异常值不会出现在皮尔逊图上,而是在图表的极端点上发现。
皮尔逊系数的示例
当相关系数为 (1) 时,表示相关性为正。也就是说,对于一个变量的每次增加,另一个变量都会以固定的比例正向增加。例如,根据脚的长度变化的鞋码是完美(几乎)相关的例子。
相关系数为 (-1) 表示对于一个变量的每次正向增加,另一个变量都会成比例地负向减少。例如,气罐中气体数量的减少与速度呈完美(几乎)反相关。
当相关系数为 (0) 时,这两个变量不相关。
何时使用皮尔逊相关系数
当以下所有条件都为真时,皮尔逊相关系数 (r) 是一个不错的选择:
两个变量都是定量的:如果任何变量都是定性的,则必须选择不同的方法。
变量服从正态分布:可以准备每个变量的直方图,以验证变量的分布是否近似正态。如果变量略微非正态,则没有问题。
数据没有异常值:异常值是不遵循与其余数据相同模式的观测值。散点图是检查异常值的好方法——重要的是要查找与其他点距离极其远的点。
关系是线性的:“线性”表示两个变量之间的关系或多或少可以用直线表示。如今,可以使用软件检查关系是否线性。
结论
卡尔·皮尔逊相关系数是统计学中研究线性变量回归的主要工具。它在很多方面都对用户有所帮助。由于该研究依赖于线性变量,因此易于使用研究结果。该系数的应用非常广泛,也用于日常生活。为了在制鞋到加油等许多领域获得更好的认识,该系数可以发挥重要作用。因此,所有希望检查双变量研究统计模型的人都应该学习卡尔·皮尔逊相关系数。
常见问题
Q1. 相关系数是什么意思?
A1. 相关系数通常用于统计学中,以衡量两个变量之间的关系。相关性通常表示两个变量(例如 X 和 Y)之间线性关系程度的特定值。
Q2. 计算卡尔·皮尔逊相关系数的假设是什么?
A2. 计算卡尔·皮尔逊相关系数时,必须做出一些假设。
以下是两个主要假设:
任何两个变量之间始终存在线性关系。
必须将异常值保持在最小范围内或完全去除。