统计学 - 简单随机抽样



简单随机样本的定义是总体中的每个元素都有相同且独立的机会被选中。对于具有N个单元的总体,选择n个样本单元的概率,所有可能的NCn个样本组合的概率由1/NCn给出,例如,如果我们有一个包含五个元素(A、B、C、D、E)的总体,即N=5,并且我们想要一个大小为n=3的样本,那么就有5C3=10个可能的样本,任何单个单元成为样本成员的概率为1/10。

简单随机抽样可以通过两种不同的方式进行,即“有放回”或“无放回”。当单元被连续选入样本中,并在下一次抽取之前替换选中的单元时,这称为有放回的简单随机样本。如果选定的单元在下一次抽取之前没有被替换,并且连续单元的抽取仅从总体中剩余的单元中进行,则这称为无放回的简单随机样本。因此,在前一种方法中,一旦选定的单元可以重复出现,而在后一种方法中,一旦选定的单元不会重复出现。由于无放回的简单随机样本具有更高的统计效率,因此它是首选方法。

简单随机样本可以通过两种程序中的任何一种进行抽取,即通过抽签法或通过随机数表。

  • 抽签法 - 在这种方法下,单元是根据随机抽取来选择的。首先,总体的每个成员或元素都被分配一个唯一的数字。下一步,这些数字写在形状、大小、颜色等方面都相同的卡片上。然后将它们放入篮子中并彻底混合。最后一步是随机取出纸条,而不看它们。抽取的纸条数量等于所需的样本量。

    抽签法有一些缺点。书写N个数字的纸条的过程很麻烦,并且当总体规模非常大时,洗牌大量的纸条很困难。此外,在选择纸条时可能会出现人为偏差。因此,可以使用另一种方法,即随机数。

  • 随机数表法 - 这些由已随机生成的数字列组成。有许多随机数表可用,例如Fisher和Yates表、Tippets随机数等。下面是从Fisher & Yates表中提取的一系列两位数随机数

    61, 44, 65, 22, 01, 67, 76, 23, 57, 58, 54, 11, 33, 86, 07, 26, 75, 76, 64, 22, 19, 35, 74, 49, 86, 58, 69, 52, 27, 34, 91, 25, 34, 67, 76, 73, 27, 16, 53, 18, 19, 69, 32, 52, 38, 72, 38, 64, 81, 79 和 38。

    第一步是为总体的每个成员分配一个唯一的数字,例如,如果总体包含20个人,那么所有个体都编号为01到20。如果我们要收集5个单元的样本,那么参考随机数表选择5个两位数。例如,使用上面的表,具有以下五个数字的单元将构成一个样本:01、11、07、19和16。如果抽样是无放回的,并且某个随机数重复出现,则它将不会再次被取,并且将选择下一个符合我们标准的数字。

因此,可以使用两种程序中的任何一种来绘制简单随机样本。然而,在实践中,人们已经发现简单随机样本需要大量的时间和精力,而且不切实际。

广告