斯皮尔曼等级相关系数
相关性是一种统计方法,用于确定两个变量之间相关程度。斯皮尔曼等级相关系数,通常称为斯皮尔曼秩相关系数(Spearman's rho),是一种非参数相关性度量,用于评估两个变量的单调性。它以其发明者查尔斯·斯皮尔曼的名字命名,他于 1904 年创造了它。假设我们需要确定两个人之间的年龄差异。可以使用斯皮尔曼等级系数。相关性有两种类型
参数相关性:因为它评估两个变量(x 和 y)之间的线性依赖性,并且取决于数据分布,所以被称为参数相关性检验。
非参数相关性:非参数相关性定义为基于秩的相关系数。
斯皮尔曼相关公式
$\mathrm{r_{s}=1-\frac{6\sum d_i^{2}}{n(n^{2}-1)}}$
$\mathrm{r_{s}}$=斯皮尔曼相关系数
$\mathrm{\sum d_i^{2}}$=两个变量秩的平方差之和
n = 观察值的数量
算法
斯皮尔曼等级相关系数计算算法
给定 n 个观察值和两个变量 X 和 Y。
分别对 X 和 Y 值进行排序。根据值的顺序分配等级,最低值分配等级 1,最高值分配等级 n。
计算每个观察值的 X 和 Y 等级之间的差值 (d)。
将每个差值 (d) 平方,得到 $\mathrm{d^{2}}$。
计算平方差之和,$\mathrm{\sum d^{2}}$。
使用以下公式计算斯皮尔曼等级相关系数 (rs):$\mathrm{r_{s}=1-(6*\sum d^{2})/(n*(n^{2}-1))}$
所得 rs 值表示 X 和 Y 单调关系的强度和方向。值为 1 表示存在完美的正相关,值为 -1 表示存在完美的负相关,值为 0 表示不存在相关性。
示例 1
现在我们了解了相关系数是什么。让我们来看一个例子,看看如何计算斯皮尔曼等级相关系数。假设我们有以下信息
X | 1 | 2 | 3 | 4 | 5 |
Y | 3 | 5 | 4 | 1 | 2 |
首先,我们需要对 X 和 Y 的值进行排序
X | 1 | 2 | 3 | 4 | 5 |
RankX | 1 | 2 | 3 | 4 | 5 |
Y | 3 | 5 | 4 | 1 | 2 |
RankX | 3 | 5 | 4 | 1 | 2 |
接下来,让我们计算 X 和 Y 等级之间的差值和 $\mathrm{d^{2}}$
d | -2 | -3 | -1 | 3 | 3 |
$\mathrm{d^{2}}$ | 4 | 9 | 1 | 9 | 9 |
因此,$\mathrm{d^{2}=22}$
现在,我们终于可以将此值用于上述公式
$\mathrm{r_{s}=1-(6*\sum d^{2})/(n*(n^{2}-1))}$
$\mathrm{r_{s}=1-(6*22)/(5*(5^{2}-1))}$
$\mathrm{r_{s}=1-0.559}$
$\mathrm{r_{s}=0.441}$
输出
因此,对于给定的数据,斯皮尔曼等级相关系数为 0.441,表明 X 和 Y 之间存在中等程度的正相关。
示例 2
让我们再举一个例子来了解如何计算斯皮尔曼等级相关系数。假设我们有以下数据
X | 1 | 2 | 3 | 4 | 5 |
Y | 1 | 2 | 3 | 4 | 5 |
首先,我们需要对 X 和 Y 的值进行排序
X | 1 | 2 | 3 | 4 | 5 |
RankX |
1 | 2 | 3 | 4 | 5 |
Y | 1 | 2 | 3 | 4 | 5 |
RankX | 1 | 2 | 3 | 4 | 5 |
接下来,让我们计算 X 和 Y 等级之间的差值和 $\mathrm{d^{2}}$
d | 0 | 0 | 0 | 0 | 0 |
$\mathrm{d^{2}}$ | 0 | 0 | 0 | 0 | 0 |
因此,$\mathrm{d^{2}=0}$
现在,我们终于可以将此值用于上述公式
$\mathrm{r_{s}=1-(6*\sum d^{2})/(n*(n^{2}-1))}$
$\mathrm{r_{s}=1-(6*0)/(5*(25-1))}$
$\mathrm{r_{s}=1-0}$
$\mathrm{r_{s}=1}$
输出
因此,对于给定的数据,斯皮尔曼等级相关系数为 1,表明 X 和 Y 之间存在完美的正相关。
优点
斯皮尔曼等级相关系数是一种非参数相关性度量,它不对变量的分布做任何假设。
它能够处理正态和非正态数据,使其可用于评估皮尔逊相关系数无法处理的数据。
斯皮尔曼等级相关系数易于计算和理解。
这种方法更容易理解和学习。
它更适合计算定性观察结果,例如人们的智力、外貌等等。
当序列只提供偏好顺序而不是变量的实际值时,这种方法是合适的。
缺点
在检测和分析线性关系方面,斯皮尔曼等级相关系数可能不如皮尔逊相关系数有效。
它可能不适合具有极端值或异常值的数据。
它没有提及相关性的方向,即它是正相关还是负相关。
结论
我们讨论了斯皮尔曼等级相关性及其如何用于检测两个变量之间的强度和关联。
我们还讨论了相关性的类型
参数相关性
非参数相关性
它易于计算,是非参数的,并且适用于非正态数据。但是,它可能不适用于具有极端值或异常值的数据,并且在检测线性关系方面不如皮尔逊相关系数强大。因此,在决定相关系数之前,研究人员必须仔细考虑其数据的性质。