心理学中零假设的意义与应用
当有人进行实验时,他们需要一个工具来验证其结果的相关性。零假设是我们在研究心理学中使用的工具之一。零假设 (H0) 假设两种可能性相同,即观察到的差异仅仅是由于偶然性造成的。然后,我们使用统计检验来确定零假设为真的可能性。
零假设
在统计检验中,零假设 (H0) 与备择假设 (H1) 相比较,在此基础上,我们拒绝或接受零假设。零假设和备择假设都是对所研究总体统计模型的推测。而统计模型又是基于总体样本建立的。这些检验在科学的各个领域都有应用,从粒子物理学到药物开发。它们将实际结果与噪声区分开来;有了它们,更容易进行正确的科学研究。
步骤
在统计显著性检验中,被检验的陈述,即零假设,与备择假设进行比较。该检验旨在评估反对零假设的证据强度。通常,零假设假设没有差异。例如,如果我们比较不同地区(例如印度和荷兰)女性的身高,零假设假设这两个地区女性的平均身高相同。在统计显著性检验中,我们从被研究的总体中抽取一个随机样本。我们假设零假设为真。我们计算如果真是如此,结果会是什么样子,然后我们将此与实际结果进行比较。如果观察到的数据和理论数据之间的差异具有统计学意义,我们就拒绝零假设。
如果零假设为真,我们得到与样本相同结果的概率称为p值。找到p值对于检验零假设至关重要。如果p值很低,则在零假设为真的情况下,该结果不太可能出现,反之亦然。
结果意味着什么?
即使我们未能排除零假设,也不意味着它是正确的,可能是测量有误或样本存在偏差。结果意味着没有足够的证据来拒绝零假设,这意味着更好的数据也可能无法拒绝零假设。
历史背景
零假设显著性检验是现代统计学中两种强大但对立的思想学派融合的产物。费舍尔设计了一种从数据中生成显著性水平的机制,但内曼和皮尔逊提出了一种严格的决策过程,用于确认或拒绝预先定义的假设。除了作为对贝叶斯主义的反应之外,零假设显著性检验过程不受该时期第三个主要智力流的影响。
早期争议:证据测量或错误率
在它们与现代NHST纠缠在一起之前,错误率的科学效用和p值的推定证据意义是有争议的问题。费舍尔和内曼尤其进行了激烈的、常常是尖锐的辩论,并且从未调和他们不同的观点。内曼-皮尔逊模型在理论上被认为是一致的,并在数理统计中被广泛接受为“频率论正统”。然而,理论上的清晰度似乎是以牺牲在实际科学工作中的有限价值为代价的。在无限重复试验中报告错误率的决策标准的强调可能适用于工业环境中的质量控制。然而,正如费舍尔嘲讽地观察到的那样(Fisher 1955),它似乎与科学假设评估不太相关。
尽管费舍尔首先为他提出的“显著性检验”提出了5%的“显著性阈值”,但他最终反对内曼-皮尔逊基于预定义水平的二元选择规则,强调这对于科学目的来说是幼稚的。因此,在后来的文章中,他建议应提供精确的p值作为反对H0的证据,而不是做出瞬间的拒绝选择(Fisher 1956)。另一方面,p值的所谓“客观”证据性质在早期就受到了质疑。费舍尔基于“归纳推理”对H0的试图反驳通常被认为在逻辑上是错误的,特别是因为p值只检验一个假设并且基于尾部面积概率,这在早期就被认为是一个严重的缺陷。
局限性
统计显著性并不意味着实际意义。结果可能具有统计学意义,但毫无用处。例如,一种比安慰剂效果更好但价格昂贵的新药,而其他更便宜的疗法可能已经提供了类似的益处。因此,这个结果具有统计学意义,但没有实际意义。我们也不能证明数据所暗示的零假设,因为这是循环推理,什么也证明不了。
结论
几乎所有实验研究,如果不是全部的话,都包括零假设。使用置信区间直接评估样本均值作为相应总体均值估计的优劣,是几种零假设显著性检验密集型科学中逐渐出现的一种替代方法,也是自然科学中常用的一种方法,以克服其局限性。