项目反应理论在心理学中的应用


项目反应理论 (IRT),也称为潜在特质理论、强真分数理论或现代心理测验理论,是心理测量学中用于测试问卷和其他类似工具的一种范例:设计、评估和评分用于测量技能、态度或其他变量。

什么是项目反应理论?

在1950年之前,项目反应函数的概念就已经存在。20世纪50年代和60年代见证了项目反应理论作为理论的发展。教育考试服务中心的心理测量学家弗雷德里克·M·洛德、乔治·拉什和奥地利社会学家保罗·拉扎斯菲尔德是三位分别进行平行研究的先驱。项目反应理论 (IRT) 的目标是研究测试或问卷的反应,以提高测量的准确性和可靠性。

它是一个基于测试者在测试项目旨在评估的总体能力衡量指标上的绩效水平与其在测试项目上的绩效之间关系的检验假设。各种统计模型都代表了项目和测试者特征。与更直接的量表开发和问卷回复分析方法不同,它不假设量表上的每个项目都同样具有挑战性。

项目反应理论模型

项目反应理论有很多不同的模型。其中三个最流行的是

拉什模型

拉什模型是各种项目反应理论应用中最广泛使用的项目反应理论模型之一。假设你有J个二元项目,X1,......., XJ,其中1表示正确回答,$0$ 表示错误回答。拉什模型使用以下公式计算回答正确的可能性。

$\mathrm{p_r(x_{ij}=1)=\frac{e^{n_i-a_j}}{1+e^{n_j-a_j}}}$

其中ni是受试者i的能力,aj是项目j的难度参数。正确回答的概率由项目的难度和受试者的能力决定。图1中的曲线,在项目反应理论领域被称为项目特征曲线 (ICC),可以用来表示这种可能性。从该曲线可以看出,概率是能力的单调递增函数。随着受试者能力的提高,正确回答的概率也随之提高。

图1:项目特征曲线

顾名思义,项目难度参数衡量正确回答一个项目有多难。根据前面的等式,对于任何能力等于难度参数值的受试者,正确回答的概率为0.5。

双参数模型

拉什模型假设每个项目都具有统一的形状。然而,这种假设可能并不成立。为了避免这种假设,引入了新的参数——区分度(斜率)参数。由此产生的模型被称为双参数模型。在双参数模型中,正确回答的可能性由下式给出:

$\mathrm{p_r(x_{ij}=1)\frac{e^{\lambda_ jn_i-a_{1}}}{1+e^{\lambda_ jn_i-a_{1}}}}$

其中$λj$ 是项目j的区分度参数,区分度参数衡量项目区分受试者的能力。区分度参数值越高,表示项目区分受试者的能力越强。区分度参数值越高,表示当能力(潜在特征)增加时,正确回答的概率上升得越快。图2显示了三个项目(项目1、项目2和项目3)在区分度参数值不同的情况下项目特征曲线。

图2:项目特征曲线

这三个项目的难度参数值均为零。区分度参数的值分别为0.3、1和2。图2显示,随着区分度参数值的增加,项目特征曲线在零点附近变得更陡峭。对于比项目1难很多的项目3,当能力值从-0.5变为0.5时,正确回答的概率从0.3增加到0.7。因此,项目3比项目1更有效地区分能力值接近0的受试者。

等级反应模型

等级反应模型,通常称为有序分类反应,是一组用于对反应进行评分的数学模型。与二分回答相反,模型回答具有分类有序数据;术语“特别有序”表示回答具有明确的等级或顺序。

  • 与二分回答相反,多分类回答细分为两个以上次要部分或分支(即,具有两个类别的回答)。

  • 因此,等级反应模型用于模拟考试,其中结果的报告比简单的“正确”或“错误”更详细。

该等式作为等级反应模型的总结。

$\mathrm{p(x_{ij} = x_{ij}\rvert\theta_{i}) = p^*_{{xij}}(\theta_i) − p^*_{xij+1}(\theta_i)}$

其中

$\mathrm{p^*_{{xij}}(\theta_i) = p(x_{ij}\geq x_{ij}\rvert\theta_{i}) = \frac{e^{Daj(\theta_{i} − b_{xij})}}{1+e^{Daj(\theta_{i} − b_{xij})}}}$

  • θ代表潜在能力或特质,以及其在受试者中的实际水平。

  • $\mathrm{X_{ij}}$ 代表给出的等级。

  • $\mathrm{b_{jx}}$ 是特定于测试项目的常数;位置参数,或分数x的类别边界;能力尺度上P = 0.5的点。

  • $\mathrm{a_{jx}}$ 是特定于测试项目的另一个常数,区分度参数,对于给定项目而言,在响应类别中是恒定的。

  • D是一个比例因子。

项目反应理论与经典测验理论的比较

几十年来,经典测验理论 (CTT) 一直是构建心理量表和测试评分的基础。经典测验理论的一个缺点是项目和人员属性(如项目难度参数和人员分数)是无法区分的。项目属性可能因所考虑的亚群而异。如果考虑高能力亚群,所有测试项目似乎都很简单。然而,对于低能力亚群来说,同一组项目会很难。这种限制使得使用各种测试格式评估个人的能力具有挑战性。然而,在项目反应理论中,项目特征和个人技能由不同的参数定义。一旦针对一个群体校准了问题,就可以直接比较来自该群体的受试者的分数,即使他们回答了项目的不同子集。一些学者称之为项目反应理论模型的不变性。

其次,经典测验理论中可靠性的定义是基于平行测验的,这在实践中很难实现。每个样本中所有分数的测量精度都是相同的。根据传统的测验理论,较长的测验通常比较短的测验更可靠。然而,项目反应理论将可靠性定义为以测量的潜在结构分数为条件的函数。测量精度在潜在结构连续体中变化,并且可以推广到整个目标人群。项目反应理论中经常使用信息曲线来显示测量精度。这些曲线可以被视为潜在因素的函数,作为项目参数的函数。它们可以计算单个项目(项目信息曲线)或整个测试(测试信息曲线)。测试信息曲线可以用来评估测试的性能。在测试开发过程中,应确保所选择的项目能够在所需范围的潜在结构连续体中提供适当的精度。

第三,在经典测验理论中,缺失值在测试开发和受试者评分过程中难以处理。除非对这些缺失值进行估算,否则无法对具有一个或多个缺失响应的受试者进行评分。另一方面,项目反应理论模型的估计框架使得很容易检查具有随机缺失数据的项目。项目反应理论仍然可以根据所有可用信息的可能性来校准问题和评分;项目反应理论程序中使用基于可能性的程序。

结论

预计项目反应理论将在未来取得进展,包括改进测量技术和对决策理论等重要领域的贡献。项目反应理论技术值得从事心理评估的研究生、研究人员和从业人员的关注。可以使用BILOG、MULTILOG和PARSCALE等计算机程序进行项目反应理论分析。

更新于:2022年12月30日

820 次浏览

开启你的职业生涯

完成课程,获得认证

开始学习
广告