项目特征曲线
在过去的几十年里,教育测量取得了悄无声息的革命。这场革命导致了现代化的项目特征曲线理论,该理论由单参数模型(Rasch)和三参数逻辑心理测试模型表示。三参数逻辑心理测试模型和程序由 Lord (1952) 开发,他在职业生涯早期就致力于项目特征曲线理论的研究。
项目反应理论和项目特征曲线是什么?
评估能力的典型方法是创建一个包含各种项目(问题)的测试。每个项目都评估目标能力的不同方面。从纯粹的技术角度来看,这些问题应该是开放式问题,允许测试者提交任何合适的答案。根据传统的测验理论,测试者的原始测验分数将是他们在测验项目中得分总和。项目反应理论指出,与其关注测试者的整体测验分数,不如关注他们是否正确回答了每个问题。
这样,项目反应理论的基本思想就可以应用于具体的测试项目,而不是像测验分数那样对项目反应进行汇总。从实践的角度来看,在测试中纳入开放式问题具有挑战性。它们尤其难以准确评分。因此,大多数项目反应理论测试都由选择题组成。项目采用二分评分,即如果测试者的回答正确,则获得一分;如果发现回答错误,则得零分。可以合理地假设,每个回答问题的测试者都具有一定的潜在能力水平。因此,可以认为每个测试者都拥有一个分数,该分数将其置于能力谱上的某个位置。
希腊字母 θ 将表示此能力分数。在每个能力水平上,都存在一个概率,即具有该能力的测试者会正确回答该项目。概率 P(θ) 将用于表示它。对于能力低的测试者,特定测试项目的此概率将很小,而对于能力高的测试者,此概率将很大。从绘制 P(θ) 作为能力函数得到一个光滑的 S 形曲线,如以下图表所示。在最低的能力水平上,正确反应的概率几乎为零。随着能力水平的提高,它会增加,直到正确反应的概率接近 1。此 S 形曲线显示了能力量表与给出正确答案的概率之间的关系。在项目反应理论中,它被称为项目特征曲线。每个测试项目都有一个独特的项目特征曲线。
项目特征曲线的特性
项目特征曲线有两个技术特征。可以使用这两个描述符来描述项目特征曲线的通用形式。第一个是项目的难度水平。根据项目反应理论,项目的难度表示它在能力量表上的位置。难度是位置指标,例如,容易的项目在能力低的考生中起作用,而复杂的项目在能力高的考生中起作用。第二个技术特性,区分度,解释了项目在多大程度上能够区分能力低于项目位置的考生和能力高于项目位置的考生。此特性表示项目特征曲线中心区域的陡峭程度。随着曲线的变陡,项目区分能力增强。曲线越平坦,项目的区分度越低,因为在低能力水平上正确反应的概率与在高能力水平上正确反应的概率大致相同。
项目难度
正确回答项目的百分比决定了项目的难度。需要注意的是,百分比越高,项目越简单;60% 的受访者正确回答的问题的 p(百分比)值为 .60。只有 10% 正确答案的难题的 p = .10。相反,90% 正确答案的简单问题的 p = .90。并非每个考试项目都有正确的答案。
例如,态度、个性、政治观点等的测试可能会向受访者提供需要同意或不同意的主题,但尚未收到正确的答案。另一方面,大多数产品都有一个键控答案,如果支持该答案,则会获得分数。例如,在焦虑量表上,对“你大部分时间都感到焦虑吗?”的问题回答“是”可能被视为反映焦虑,并且将是键控答案。如果考试旨在评估“镇定”,则对该项目的回答“否”可能是键控答案。因此,项目难度可能表示同意键控答案的人的百分比。
我们希望了解项目的难度水平,以便通过仔细选择项目来开发具有不同难度水平的测试。一般来说,心理测量考试应该具有平均难度,平均难度定义为 p = .50。请注意,这会导致平均分数接近 50%,这似乎是一个很高的标准。这是因为 p = .50 提供了最具区分度的项目,代表了个体差异。考虑极难的项目(p = .00)或简单的项目(p = 1.00)。此类项目在心理测量学上无关紧要,因为它们不代表人与人之间的任何差异。在不同个体给出不同反应的程度上,并且答案与某些行动相关联,这些项目才有价值,因此最有用的项目的 p 接近 0.50。
但是,情况更加复杂。假设我们有一个算术测试,所有项目的 p 都为 .50。参加测试的孩子不太可能随机作答;因此,如果 Johnny 做对了第 1 题,他很可能做对了第 2 题,依此类推。如果 Mark 忽略了第 1 题,他很可能忽略第 2 题,依此类推。这意味着至少在理论上,一半的孩子会做对所有题目,另一半会做错所有题目,导致只有两个原始分数,即零或 100——这是非常不理想的情况。为了解决这个问题,选择平均难度值为 .50 但难度值范围从 0.30 到 0.70 或类似值的项目。
项目区分度
如果我们有一个算术测试,测试中的每个项目都应该能够区分了解主题的人和不了解主题的人。如果我们有一个抑郁症测试,那么每个项目都应该能够区分有抑郁症的人和没有抑郁症的人。项目区分度是指项目在适当“区分”在相关变量上得分较高和得分较低的个体方面的能力。对于大多数变量,我们通常不假设二分法,而是假设连续变量。也就是说,我们不认为世界上只有两种人,即抑郁和非抑郁,而是认为不同的人可以表现出不同程度的抑郁。
还有其他计算项目区分度指标的方法。但是,大多数方法都非常相似,并且涉及比较每个项目的得分较高者与得分较低者的表现。例如,假设我们已经给 100 名儿童进行了算术考试。我们有每个孩子的测试总原始分数以及他们在每个项目上的表现记录。为了计算每个项目的项目区分度指标,我们必须首先定义“得分较高者”与“得分较低者”。
我们可以获取所有 100 名儿童,计算其整体测试结果的中位数,并将得分高于中位数的人识别为得分较高者,将得分低于中位数的人识别为得分较低者。这种方法的优点是我们使用了所有数据,即所有 100 个过程。缺点是在分布的中间有很多“噪声”。考虑莎拉,她的得分略高于中位数,被归类为高分者。如果她重新参加考试,她的得分可能会低于中位数,并被标记为低分者。
在频谱的另一端,我们可以将得分最高的五名儿童归类为高分者,将得分最低的五名儿童归类为低分者。这里的优点是,这些极端分数在重新测试时不太可能发生重大变化;它们很可能不是猜测的结果,最有可能代表“现实生活”中的联系。缺点是我们现在拥有相对较小的样本,需要确保我们的计算确实稳定。是否存在一个折衷方案,一方面最大限度地减少“噪声”,同时最大限度地提高样本量?凯利 (1939) 多年前表明,最佳方法是选择上 27% 和下 27%,而小的变化,例如 25% 或 30%,影响不大。
项目反应理论和项目特征曲线的应用
它包括
自适应测试 - 计算机自适应测试是项目反应理论的重要且有趣的应用之一。如果每个项目的难度水平与该人的能力相匹配,则测试对于任何个人来说都是最准确的。项目反应理论可用于帮助修改不同测试者的考试。当一个人在计算机终端参加考试时,他们可以在每个测试步骤中估计其能力水平,然后选择下一个项目以匹配该能力水平。例如,自定义测试中的第一个问题可能相对具有挑战性。如果考生通过了该问题,则机器可能会为测试的第二个项目选择更具挑战性的问题。如果考生未能通过该项目,则可能会选择一个不太具有挑战性的项目作为下一个项目。
筛选测试 − 筛选测试用于确定初步结果,或候选人是否拥有超过职位所需知识或技能。可以使用项目反应理论来研究筛选测试。考虑一个测试,以剔除医学院候选人池中最低一半的申请人。在学校想要做出区分的能力分布点上,曲线会很陡峭,低分组正确回答问题的概率很低,而高分组正确回答问题的概率则很高。这些可以包含在一个简短且有价值的测试中,用于此初始筛选。
结论
在教育和心理测试中使用项目特征曲线 (ICC) 可以带来诸多好处。ICC 通过直观地展示项目难度与正确反应概率之间的关系,使理解和分析项目的表现变得更加简单。这有助于识别难题,例如过于简单或过于困难的项目,并确定哪些项目最能区分不同能力水平的人。ICC 可以帮助指导项目替换或修订的决策。通过查找需要修改的项目并根据曲线的形状改进其心理测量特性,可以提高测试的信度和效度。