统计学 - 必需样本量



检验的一个关键部分是选择检验的度量,即从总体中选择多少单位来完成研究。对于确定最合适的样本量,没有明确的答案或解决方案。关于样本量的大小存在一些误解,例如样本量应为总体的10%或样本量与总体的大小成正比。但是,如前所述,这些仅仅是误解。样本量的大小取决于所研究总体参数的变化以及研究人员所需的估计精度。

关于样本量的最佳大小的决策可以从两个角度出发,即主观和数学角度。

  1. 确定样本量的主观方法

  2. 确定样本量的数学方法

确定样本量的主观方法

样本量大小的选择受以下讨论的各种因素的影响

  • 总体的性质 - 同质性或异质性的水平会影响样本量的大小。如果总体在感兴趣的特征方面是同质的,那么即使是少量样本也足够了。但是,如果总体是异质的,那么需要更大的样本才能确保足够的代表性。

  • 被调查者的性质 - 如果被调查者容易获得且容易接触,那么可以从少量样本中获得所需的数据。然而,如果被调查者不合作并且预计不回复率很高,那么需要更大的样本。

  • 研究的性质 - 可以使用大型样本进行一次性研究。如果发生持续性的研究,并且需要进行深入的研究,那么较小的样本更合适,因为它易于管理和在较长的时间范围内保持较小的样本。

  • 采用的抽样技术 - 影响样本量大小的一个重要变量是采用的抽样方法。首先,非概率方法需要比概率方法更大的样本。此外,在概率抽样中,如果使用简单随机抽样,则需要比使用分层抽样更大的样本,在分层抽样中,较小的样本就足够了。

  • 制表复杂度 - 在确定样本量时,研究人员还应该考虑将结果汇总和分析到的类别和组的数量。已经观察到,要生成的类别越多,样本量就越大。由于每个类别都应有足够的代表性,因此需要更大的样本才能提供对最小类别的可靠度量。

  • 资源可用性 - 研究人员可用的资源和时间会影响样本量的大小。研究是一项耗时且耗资的任务,例如工具准备、聘用和培训外勤人员、运输成本等会占用大量资源。因此,如果研究人员没有足够的时间和资源,他将选择较小的样本。

  • 所需的精度和准确度 - 从我们之前的讨论中可以清楚地看出,由标准误差衡量的精度,只有当S.E较小或样本量较大时才会较高。

此外,要获得高水平的精度,需要更大的样本。除了这些主观努力之外,样本量也可以用数学方法确定。

确定样本量的数学方法

在确定样本量的数学方法中,首先说明所需的估计精度,然后计算样本量。精度可以指定为真实均值的±1,置信水平为99%。这意味着,如果样本均值为200,则均值的真实值将在199到201之间。此精度级别由术语“c”表示。

均值的样本量确定。

总体均值的置信区间由下式给出

${\bar x \pm Z\frac{\sigma_p}{\sqrt N}\ 或\ \bar x \pm e}$

其中 -

  • ${\bar x}$ = 样本均值

  • ${e}$ = 可接受误差

  • ${Z}$ = 给定置信水平下标准正态变量的值

  • ${\sigma_p}$ = 总体标准差

  • ${n}$ = 样本量

可接受误差'e',即${\mu}$和${\bar x}$之间的差异由下式给出

${Z.\frac{\sigma_p}{\sqrt N}}$

因此,样本量为

${n = \frac{Z^2{\sigma_p}^2}{e^2}}$

如果样本量相对于总体大小而言很大,则上述公式将通过有限总体乘数进行校正。

${n = \frac{Z^2.N.{\sigma_p}^2}{(N-1)e^2 + Z^2.{\sigma_p}^2}}$

其中 -

  • ${N}$ = 总体大小

比例的样本量确定

当估计比例时确定样本量的方法与估计均值的方法相同。总体比例${\hat p}$的置信区间由下式给出

${ p \pm Z. \sqrt{\frac{p.q}{n}}}$

其中 -

  • ${p}$ = 样本比例

  • ${q = (1 - p)}$

  • ${Z}$ = 样本比例的标准正态变量的值

  • ${n}$ = 样本量

由于要估计${ \hat p}$,因此可以通过取p = 0.5(一个可接受的值)来确定p的值,从而得到一个保守的样本量。另一种选择是通过试点研究或根据个人判断来估计p的值。给定p的值,可接受误差'e'由下式给出

${ e= Z. \sqrt{\frac{p.q}{n}} \\[7pt] e^2 = Z^2\frac{p.q}{n} \\[7pt] n = \frac{Z^2.p.q}{e^2}}$

如果总体是有限的,则上述公式将通过有限总体乘数进行校正。

${n = \frac{Z^2.p.q.N}{e^2(N-1) + Z^2.p.q}}$

示例

问题陈述

一家购物商店有兴趣估计拥有该商店特权会员卡的家庭的比例。以前的研究表明,59% 的家庭拥有该商店的信用卡。在置信水平为 95% 且容许误差水平为 05 的情况下。

  1. 确定进行研究所需的样本量。

  2. 如果目标家庭的数量已知为 1000,样本量是多少?

解决方案

该商店拥有以下信息

${ p = .59 \\[7pt] \Rightarrow q = (1-p) = (1-.59) =.41 \\[7pt] CL = .95 \\[7pt] 并且CL为.95的Z标准变量为1.96 \\[7pt] e = \pm .05 }$

可以通过应用以下公式确定样本量

${n = \frac{Z^2.p.q}{e^2}}$
${n = \frac{(1.96)^2.(.59).(.41)}{(.05)^2} \\[7pt] = \frac{.9226}{.0025} \\[7pt] = 369 }$

因此,369 户家庭的样本足以进行研究。

由于总体,即目标家庭已知为 1000,并且上述样本是总人口的重要部分,因此使用包含有限总体乘数的校正公式。

${n = \frac{Z^2.p.q.N}{e^2(N-1) + Z^2.p.q} \\[7pt] = \frac{(1.96)^2.(.59).(.41).(1000)}{(.05)^2 \times 999 + (1.96)^2(.59)(.41)} \\[7pt] = \frac{922.6}{2.497 + .922} \\[7pt] = 270 }$

因此,如果总体是包含1000户家庭的有限总体,则进行该研究所需的样本量为270。

从这个例子可以看出,如果已知总体规模,则确定的样本量会减小。

广告