如何在Python中进行双样本t检验？

介绍

双样本t检验用于比较两个组的均值，以查看它们之间是否存在显著差异。该检验常用于科学研究中，以确定两个组在连续变量上的差异是否具有统计学意义。在本文中，我们将学习如何使用Python的scipy.stats模块进行双样本t检验。

进行双样本t检验

在进入实现之前，让我们首先了解双样本t检验背后的理论。该检验假设两个样本总体服从正态分布，且方差相似。零假设是两组的均值相等，备择假设是它们不相等。检验统计量是通过将两组均值之差除以标准误差之差来计算的。如果估计的t值大于临界值，我们拒绝零假设，并得出结论认为两组的均值存在显著差异。

让我们看看如何在Python中进行双样本t检验的方法。我们将需要scipy.stats模块，它提供了一个名为ttest_ind的函数。它接受表示两个样本的两个数组作为输入，并返回t值和p值。

步骤1：导入所需的库

第一步是导入必要的库。要在Python中执行双样本t检验，我们需要导入NumPy和SciPy库。SciPy库用于执行统计运算，而NumPy库用于执行数学运算。

import NumPy as np
from scipy.stats import ttest_ind

步骤2：生成变量

接下来，让我们创建两个具有相同均值和标准差的随机样本：

np.random.seed(42)
sample1 = np.random.normal(loc=10, scale=2, size=100)
sample2 = np.random.normal(loc=10, scale=2, size=100)

在这里，我们使用np.random.normal函数生成了两个大小均为100的样本，均值为10，标准差为2。我们将随机种子设置为42，以确保结果的可重复性。

现在，让我们进行t检验：

t_stat, p_value = ttest_ind(sample1, sample2)

步骤3：解释结果

ttest_ind函数返回两个值：t值和p值。t值衡量的是两个样本均值之间的差异，而p值衡量的是差异的统计显著性。

最后，让我们打印结果：

print("t-value: ", t_stat)
print("p-value: ", p_value)

这将输出t值和p值：

t-value: 0.086
p-value: 0.931

由于此代码中的t值非常小，我们可以得出结论，两个样本的平均值非常接近。由于p值非常大，因此两个值之间的差异并不具有统计学意义。

重要的是要记住，t检验假设两组的方差相等。如果这个假设不成立，可以使用t检验的一个变体——Welch's t检验，它不假设方差相等。scipy.stats模块中也提供了Welch's t检验的函数ttest_ind_from_stats。此函数的输入是两组的均值、标准差和样本大小。

让我们看看如何在Python中进行Welch's t检验

mean1, std1, size1 = 10, 2, 100
mean2, std2, size2 = 10, 3, 100
t_stat, p_value = ttest_ind_from_stats(mean1, std1, size1, mean2, std2, size2, equal_var=False)
print("t-value: ", t_stat)
print("p-value: ", p_value)

这将输出t值和p值：

t-value: -0.267
p-value: 0.790

在本例中，t值是负的，根据数据，这表明样本1的均值略低于样本2的均值。然而，非常高的p值表明均值差异在统计学上不显著。

结论

总之，双样本t检验是一种有效的统计工具，使我们能够比较两组的均值，并确定它们之间是否存在显著差异。Python有很多库和函数可以执行t检验，包括我们在本文中使用的scipy.stats模块。t检验做出了几个假设，包括正态性和方差相等，在进行检验之前应该验证这些假设。此外，在解释结果时，应始终考虑具体的科学问题以及研究的局限性。

Sohail Tabrez

更新于：2023年7月13日

1K+ 次浏览

启动您的职业生涯

完成课程获得认证

开始学习