什么是相关性?
相关性是指衡量两个定量变量(例如,身高、体重)之间线性关系强度的指标。主要根据变量的移动方向分为两种相关性:
正相关 – 在两个变量的正相关中,两个变量朝着相同的方向移动。这意味着当一个变量的值上升时,另一个变量也上升,反之亦然。例如,汽车行驶的距离越远,消耗的燃料就越多。
负相关 – 在负相关的情况下,当一个变量增加时,另一个变量减少,反之亦然。
强相关和弱相关
在强相关中,可以根据另一个变量的值,以相当高的精度预测一个变量的值。在弱相关的情况下,一个变量的平均值与另一个变量相关,但有很多例外。
样本相关系数“r”量化了关系的强度。相关性也经常进行统计显著性检验。
相关性分析的局限性
相关性不能显示除正在探讨的两个变量之外的其他变量的存在或影响。
相关性并不能告诉我们变异的因果关系。
相关性也无法描述曲线关系。
相关性描述数据一起移动的情况
相关性可用于描述数据集中的简单关系。例如,对于山区公园营地的数据集,可能需要了解营地高度与其夏季平均温度之间是否存在关系。
在这里,对于每个单独的营地,必须测量两个指标:海拔和温度。当您使用相关性检查样本中这两个变量时,您会发现线性关系:随着海拔升高,温度下降。因此,这两个变量呈负相关。
相关性数字是什么意思?
相关性是使用称为相关系数的无量纲计算来测量的,其范围从 -1 到 +1,并用“r”表示。统计部分用 p 值表示。因此,相关性通常用两个关键数字来表示:“r=”和“p=”。
“r”越接近零,线性关系就越弱。
正“r”值表示正相关。
负“r”值表示负相关。
p 值为我们提供了证据,根据我们从样本中观察到的情况,我们可以证明总体相关系数不同于零。
“无量纲度量”表明相关性存在于其自身的尺度上。在上面给出的示例中,“r”给出的数字与身高或温度的尺度不同。这与其他形式的统计数据不同。例如,身高测量的平均值与其变量的尺度相同。
广告