统计学 - 分层抽样



这种检查策略用于总体可以轻松地划分为群体或层的情况,这些群体或层彼此之间特别不同,但在一个群体内的元素在某些属性方面是同质的,例如,学校的学生可以根据性别、提供的课程、年龄等划分为层。在这种情况下,总体首先被划分为层,然后从每个层中抽取一个简单随机样本。分层抽样有两种类型:比例分层抽样和非比例分层抽样。

  • 比例分层抽样 - 在这种情况下,从每个层中选择的单位数量与该层在总体中的比例成正比,例如,在一所大学中,共有 2500 名学生,其中 1500 名学生注册了本科课程,1000 名学生注册了研究生课程。如果要使用比例分层抽样选择 100 个样本,则样本中本科生的数量将为 60,研究生为 40。因此,这两个层在样本中的表示比例与其在总体中的表示比例相同。

    当抽样的目的是估计某个特征的总体值并且层内方差没有差异时,这种方法最合适。

  • 非比例分层抽样 - 当研究的目的是比较层之间的差异时,有必要从所有层中抽取相同数量的单位,而不管它们在总体中的比例如何。有时,某些层在某些特征方面比其他层变化更大,在这种情况下,可以从变化更大的层中抽取更多数量的单位。在这两种情况下,抽取的样本都是非比例分层样本。

    层的大小和层变异性的差异可以使用以下公式来优化分配,以确定来自不同层的样本量

    公式

    ${n_i = \frac{n.n_i\sigma_i}{n_1\sigma_1+n_2\sigma_2+...+n_k\sigma_k}\ for\ i = 1,2 ...k}$

    其中 -

    • ${n_i}$ = 第i层的样本量。

    • ${n}$ = 层的大小。

    • ${\sigma_1}$ = 第i层的标准差。

    此外,可能存在在一个层中收集样本的成本可能高于另一个层的情况。最佳非比例抽样应以以下方式进行

    ${\frac{n_1}{n_1\sigma_1\sqrt{c_1}} = \frac{n_2}{n_2\sigma_1\sqrt{c_2}} = ... = \frac{n_k}{n_k\sigma_k\sqrt{c_k}}}$

    其中 ${c_1, c_2, ... ,c_k}$ 指的是在k层中抽样的成本。可以使用以下公式确定来自不同层的样本量

    ${n_i = \frac{\frac{n.n_i\sigma_i}{\sqrt{c_i}}}{\frac{n_1\sigma_1}{\sqrt{c_i}}+\frac{n_2\sigma_2}{\sqrt{c_2}}+...+\frac{n_k\sigma_k}{\sqrt{c_k}}}\ for\ i = 1,2 ...k}$

示例

问题陈述

一个组织有 5000 名员工,他们被分层为三个级别。

  • 层A:50名高管,标准差=9

  • 层B:1250名非体力劳动者,标准差=4

  • 层C:3700名体力劳动者,标准差=1

如何以非比例的方式抽取 300 名员工的样本,并进行最佳分配?

解决方案

使用非比例抽样公式进行最佳分配。

${n_i = \frac{n.n_i\sigma_i}{n_1\sigma_1+n_2\sigma_2+n_3\sigma_3}} \\[7pt] \, 对于层A, {n_1 = \frac{300(50)(9)}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{135000}{1950} = {14.75}\ 或说 {15}} \\[7pt] \, 对于层B, {n_1 = \frac{300(1250)(4)}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{150000}{1950} = {163.93}\ 或说 {167}} \\[7pt] \, 对于层C, {n_1 = \frac{300(3700)(1)}{(50)(9)+(1250)(4)+(3700)(1)}} \\[7pt] \, = {\frac{110000}{1950} = {121.3}\ 或说 {121}}$
广告