如何进行配对样本 t 检验

机器学习 Numpy 编程

介绍

在机器学习和数据科学中，许多统计检验用于比较和发现变量或数据特征之间的差异。这些检验主要是假设检验，其中定义了条件，并且根据进行的不同检验，假设变量之间的关系。t检验也是一种统计检验，用于比较分类变量不同组的均值。

在本文中，我们将讨论配对 t 检验，它是统计学中使用的一种 t 检验的扩展或类型，我们将讨论进行该检验的步骤。本文将帮助读者理解配对 t 检验背后的直觉，并能够在需要时进行该检验。

因此，让我们从最基本的 t 检验开始。

什么是 t 检验？

t 检验是一种统计检验，用于比较分类变量不同组的均值。它用于检查组之间是否存在差异。有时它也用于特征选择，其中定义了假设，并且根据基于 p 值和 t 值的假设的接受和拒绝，选择和拒绝用于模型训练的特征。

在 t 检验中，我们基本上取分类变量不同组或类别的均值，然后进行比较以检查差异。

这里也计算 t 值，然后将其与临界 t 值进行比较，如果计算出的 t 值大于临界 t 值，则拒绝原假设，并假设被比较的不同组的均值之间存在差异。

现在，在普通 t 检验的情况下，计算不同组的个体均值，然后将其用于计算检验的 t 值，这有助于进行假设检验，并据此拒绝和接受原假设和备择假设。

但在某些情况下，我们需要检查变量的变化率，或者我们有配对观测值，其中数据是从同一类别收集的；在这种情况下，使用配对样本 t 检验。

让我们在下一节中详细讨论这些。

什么是配对样本 t 检验？

配对样本 t 检验也是一种用于比较不同组均值的 t 检验，但是这里计算均值的差异而不是计算组的个体均值。

简单来说，它是用于配对样本的情况下的检验，并且如果我们想要研究来自同一变量的两个组之间均值的变化率。它计算组均值的差异，然后计算 t 值。

简而言之，当我们有配对或相关的分类变量组时，使用配对 t 检验，这些组是数据中某些行动、事件或干预的结果，并且通过某些东西相关。

而普通 t 检验用于我们有两个独立的分类变量组，它们之间没有任何关系。

现在让我们讨论进行配对 t 检验的工作流程。

进行配对 t 检验的工作流程

让我们逐步讨论进行配对 t 检验中涉及的各个步骤。

定义假设

进行任何假设检验的第一步是首先定义假设。这里定义原假设和备择假设，并根据我们在检验结束时获得的 t 值接受和拒绝它们。

收集配对数据

由于在这种情况下我们正在进行配对 t 检验，因此此处的将是配对数据，或者数据样本将是配对的，并从事件的同一类别收集。数据可以从同一对象或在不同时间间隔下具有相同受试者收集。

计算差异

现在，对于每一对观测值，我们将计算不同组的值的差异。因此，在这里，对于两组，我们将对观测值的某个索引具有一定的值；计算所有观测值的这些值之间的差异。

求差异的均值

现在，由于我们有了组观测值之间的差异，我们将取这些差异的均值。此外，还将在这一步计算标准差。

求 t 值

在此步骤中，使用以下公式找到 t 值：

T = 均值差 - 假设差 / sqrt(S^2/n)

求临界 t 值

下一步是找到 t 的临界值。这里使用自由度和显著性水平来获得样本的临界 t 值。

解释结果

现在比较检验的结果；这里计算普通的计算 t 值和临界 t 值，如果计算出的 t 值大于临界 t 值，则拒绝原假设。

进行配对 t 检验的示例

现在让我们来看一个代码示例，以便更清楚地理解配对 t 检验。在这里，我们将使用一个包含 500 个观测值的虚拟数据集，并且我们将对该数据集进行普通和配对 t 检验。

import numpy as np
from scipy import stats
np.random.seed(42)

group_a = np.random.normal(loc=10, scale=2, size=500)
group_b = np.random.normal(loc=12, scale=2, size=500)

# Normal t-test
t_stat, p_value = stats.ttest_ind(group_a, group_b)

# Paired t-test
paired_diff = group_b - group_a
t_stat_paired, p_value_paired = stats.ttest_rel(group_b, group_a)

# The results
print("Normal t-test:")
print("t-statistic:", t_stat)
print("p-value:", p_value)

print("
Paired t-test:")
print("t-statistic:", t_stat_paired)
print("p-value:", p_value_paired)

输出

Normal t-test:
t-statistic: -16.54353366592559
p-value: 1.638349016942478e-54

Paired t-test:
t-statistic: 15.951028260754956
p-value: 1.3798771823104818e-46

上述代码对样本数据进行配对和普通 t 检验，并打印结果以及相应的 t 值和 p 值。然后，这些值可用于假设检验。

结论

在本文中，我们讨论了 t 检验和配对 t 检验，它们测试的含义、使用时间以及它们的主要应用，并讨论了它们的工作流程和代码示例。本文将帮助读者更清楚地理解配对 t 检验，并将帮助读者进行该检验以比较变量的不同组。

Parth Shukla

更新于：2023年8月17日

272 次查看

启动您的职业生涯

通过完成课程获得认证

开始