统计学 - Kolmogorov Smirnov检验



此检验用于需要比较观察样本分布与理论分布的情况。

K-S单样本检验

此检验用作拟合优度检验,当样本量较小时非常理想。它将变量的累积分布函数与指定的分布进行比较。零假设假设观察分布与理论分布之间没有差异,并且检验统计量“D”的值计算如下

公式

$D = 最大值 |F_o(X)-F_r(X)|$

其中 -

  • ${F_o(X)}$ = n个观测值的随机样本的观察累积频率分布。

  • 以及 ${F_o(X) = \frac{k}{n}}$ = (≤X的观测值数)/(观测值总数)。

  • ${F_r(X)}$ = 理论频率分布。

从K-S表中找到单样本检验的${D}$的临界值。

接受标准:如果计算值小于临界值,则接受零假设。

拒绝标准:如果计算值大于表值,则拒绝零假设。

示例

问题陈述

在一项针对大学不同专业的60名学生的调查中,从每个专业抽取相同数量的学生进行访谈,并记录了他们加入大学戏剧俱乐部的意愿。

 理学士文学士工商管理学士文学硕士工商管理硕士
每个班级的数量59111619

预计每个班级的12名学生将加入戏剧俱乐部。使用K-S检验来确定学生班级在加入戏剧俱乐部的意愿方面是否存在差异。

解决方案

${H_o}$:不同专业的学生在加入戏剧俱乐部的意愿方面没有差异。

我们为观察分布和理论分布开发累积频率。

专业有兴趣加入的学生人数${F_O(X)}$${F_T(X)}$${|F_O(X)-F_T(X)|}$
 观察值
(O)
理论值
(T)
   
理学士5125/6012/607/60
文学士91214/6024/6010/60
工商管理学士111225/6036/6011/60
文学硕士161241/6048/607/60
工商管理硕士191260/4060/6060/60
总数n=60    

检验统计量${|D|}$计算如下

$D = 最大值 {|F_0 (X)-F_T (X)|} \\[7pt] \, = \frac{11}{60} \\[7pt] \, = 0.183$

在5%显著性水平下,D的表值由下式给出

${D_0.05 = \frac{1.36}{\sqrt{n}}} \\[7pt] \, = \frac{1.36}{\sqrt{60}} \\[7pt] \, = 0.175$

由于计算值大于临界值,因此我们拒绝零假设,并得出结论,不同专业的学生在加入俱乐部的意愿方面存在差异。

K-S双样本检验

当有两个独立样本而不是一个样本时,可以使用K-S双样本检验来检验两个累积分布之间的一致性。零假设表明两个分布之间没有差异。D统计量的计算方式与K-S单样本检验相同。

公式

${D = 最大值 |{F_n}_1(X)-{F_n}_2(X)|}$

其中 -

  • ${n_1}$ = 第一个样本的观测值。

  • ${n_2}$ = 第二个样本的观测值。

可以看出,当累积分布显示较大的最大偏差${|D|}$时,表明两个样本分布之间存在差异。

对于${n_1 = n_2}$且≤ 40的样本,使用双样本情况下的K-S表来查找D的临界值。当${n_1}$和/或${n_2}$ > 40时,应使用双样本大样本的K-S表。如果计算值小于表值,则接受零假设,反之亦然。

因此,使用任何这些非参数检验都可以帮助研究人员在目标总体特征未知或未对其进行任何假设的情况下检验结果的显著性。

广告