可靠性度量：含义和方法

可靠性是指任何有意义的研究结果都应该可重复。其他研究人员必须能够在相同条件下进行相同的实验并产生相同的结果。这将支持研究结果并确保所有研究人员都接受该理论。如果没有这种统计学意义上的结果重复，则实验和研究就没有完全满足可检验性的先决条件。为了使假设成为公认的科学真理，必须满足此条件。通常认为仪器能够保持真实和准确的时间，并且是可靠的。

然而，为了降低故障的可能性并保持数据有效性和可靠性，科学家会重复进行测量。另一方面，任何依赖于人为判断的实验都将始终受到质疑。个体观察者可能会根据一天中的时间和他们当前的情绪以不同的方式判断事物，这使得人为判断变得不可预测。这意味着此类实验本质上不太可靠，而且难以重复。为了评估实验的整体有效性并加强结论，可靠性是一个至关重要的组成部分。

什么是可靠性？

可靠性是指测量的稳定性或仪器在相同条件下、对相同个体重复使用时每次测量方式的一致程度。简而言之，它是测量的可重复性。如果一个人在同一测试中进行两次测试的分数相似，则该测量被认为是可靠的。必须记住，可靠性不是测量的，而是推断的。例如，如果一项测试旨在评估某一特定特征，例如神经质，则它应该在每次执行时都产生一致的结果。如果多次获得相同的结果，则该测试被认为是可靠的。

可靠性估计方法

有几种方法可以估计仪器的可靠性。各种程序可以分为两类：

外部一致性程序
内部一致性程序

外部一致性程序

外部一致性程序将来自两个独立数据收集过程的结果相互比较，以验证测量的可靠性。

重测信度

确定测试可靠性的最常用策略是在两个时间段内对同一样本进行相同的测试。在此示例中，可靠性系数是同一个人在两次测试管理中获得的分数之间的相关性。当对同一被评估者进行相同的测试时，会评估重测信度。因此，它指的是测试在两个独立时间段和管理中的前后一致性。此策略基于这样的前提，即所讨论的结构的测量在多次管理后将保持不变。测量之间的时间间隔至关重要；时间间隔越短，相关值越好，反之亦然。如果测试可靠，则第一次管理获得的分数应等于第二次管理获得的分数。两次管理之间的关系应该是正相关的。

平行形式信度

平行形式信度、备择形式信度、相似形式信度和可比形式信度都是信度的术语。平行形式信度比较两种等价的测试形式，这些测试形式评估相同的属性。两种形式中使用的项目是不同的。但是，选择特定难度级别的项目的准则相同。当两种考试版本可用时，可以将其中一种的成绩与另一种的成绩进行比较。有时，两种形式在同一天给同一组人。

皮尔逊积矩相关系数被用作可靠性的估计。当两种考试版本可用时，可以将其中一种的成绩与另一种的成绩进行比较。两种形式在同一天给同一组人。作为可靠性的估计，使用皮尔逊积矩相关系数。当两种考试版本都在同一天进行时，差异的唯一原因是随机误差和考试形式之间的差异。

这两种测试形式有时在不同的时间进行。在这种情况下，与时间抽样相关的误差也包含在可靠性估计中。平行形式的方法是广泛使用的最严格的可靠性检验之一。不幸的是，平行形式的使用频率低于理想水平。

不幸的是，平行形式的使用频率低于理想水平。测试工程师有时很难创建同一测试的两个版本，而且实际限制使得对同一组人进行重新测试变得很困难。另一方面，许多测试开发人员根据特定类型的测试来估计或确定其可靠性。心理学家有时会准备两种测试版本，他们经常只有一种测试形式，并且必须评估特定项目集的可靠性。有几种方法可以评估单个测试内的各种差异原因。一种方法是将测试分成子部分并检查其内部一致性。

内部一致性程序

内部一致性程序背后的理念是，测量相同现象的项目应该产生相似的结果。以下内部一致性程序通常用于估计可靠性：

备择形式法

等价/平行形式方法，也称为备择形式方法，广泛用于教育、推广和发展研究，以确定各种测量工具的可靠性。它也需要与重测方法相同的测试环境和人员。但是，它与重测方法在一种关键方面有所不同：第二次测试没有使用相同的测试，而是使用了相同测试的备择形式。因此，两份可比的阅读考试应包含复杂程度相同的阅读文章和问题。但是，个别文本和问题应该不同，这意味着该方法有所不同。建议将两种形式间隔大约两周进行，以考虑个人每天的变化。两种形式之间的相关性将提供合适的可靠性系数。

折半法

折半法是另一种常用的方法，用于检查测量工具的内部一致性可靠性。在折半技术中，进行测试，将其分成两半，并分别进行评估。将测试的一半的分数与另一半的分数进行比较，以评估可靠性。首先在折半方法中将考试分成两半。最常见的方法是将奇数项目分配到测试的一侧，将偶数项目分配到另一侧，称为奇偶信度。第二，使用皮尔逊 r 方法确定两半分数之间的相关性。第三，使用斯皮尔曼-布朗公式调整或修改相关性，这进一步提高了估计的可靠性。

可靠性估计量的比较

所有可靠性估计量都有优点和缺点，例如：评分者间信度最适合于测量包含观察的情况；但是，需要多个观察者；或者，可以考虑单一观察者在单一场合重复进行的评分。如果评估者希望使用一组评分者，也可以使用它。平行形式估计量最适合于将两种形式用作相同现象的替代测量。但是，这与内部一致性可靠性测量一样，都存在限制，因为必须创建多个项目来评估相同的结构。

克朗巴赫α系数在项目数量众多时很有用。重测信度通常用于实验和准实验方法。这也取决于控制组的可用性，在两个不同的日期进行评估。只有在进行后测时，才能获得有关可靠性的信息。因此，每个估计量都会对可靠性产生不同的估计。由于在不同时间或与多个评分者进行测量，因此重测信度和评分者间信度估计通常不如平行形式和内部一致性有价值。

如何提高可靠性？

有两种方法可以提高测量工具的可靠性。

通过标准化测量条件，我们必须确保最大程度地消除外部差异原因（如厌倦、疲劳等），以提高稳定性方面。
通过仔细制定从一组到另一组一致的测量说明，通过使用熟练且积极的研究人员，以及通过扩展用于提高等价性的项目样本。

结论

在心理测试中，信度指的是测量一致性的属性。信度有几个层次。为了评估心理测试分数的一致性，可以使用皮尔逊积差相关系数。这种类型的信度被称为重测信度。复本信度是通过将给予一大群多样化参与者以平衡方式给出的两种可比表格上的分数联系起来计算的。分半信度（其中将一半测试的结果联系起来）和系数α（可以将其视为所有潜在分半系数的平均值）是两种内部一致性信度方法。对于涉及审查员判断以授予分数的考试，需要评分者间信度。

Utkarsh Shukla

更新于：2023年2月13日

3K+ 浏览量

开启您的职业生涯

通过完成课程获得认证

开始学习