心理测试的效度
测试效度的概念主要关注测试的“根本诚实”——诚实是指测试做到了它声称要做的事情。这是对既定目标与所做努力、所使用方法以及这些努力和方法所取得成就之间联系的根本关注。更具体地说,效度是指工具衡量其所应衡量内容的程度。
测试的效度
根据Goode和Hatt的说法,当测量工具(量表、测试等)真正测量其承诺测量的内容时,它就具有效度。效度主题在发展研究中复杂且至关重要,因为在这里,比其他任何地方更需要对现实的本质提出质疑。
在不深入研究变量的性质和意义的情况下,研究可靠性是可行的。在测量某些生理特征和人的相对简单的品质时,效度不是问题。学龄前儿童的体型测量,如头围和胸围,可以使用精度为特定厘米或英寸的测量工具进行测量。
假设一位儿童发展推广专业人员希望研究营养不良与学龄前儿童智力发展之间的关系。在这种情况下,没有规则可以衡量营养不良的程度,也没有任何量表或明确的生理特征可以衡量智力发展。在这种情况下,设计间接测量某些属性的方法至关重要。这些方法通常非常间接,以至于测量的有效性和其产品的有效性受到质疑。
测量工具效度的途径
每个测量工具,为了有用,必须具有一定的效度指标。有四种测量工具效度的途径:
逻辑效度/表面效度
专家意见
已知群体
独立标准
逻辑效度
这是最常用的方法之一。它与理论或常识分析有关,该分析简单地发现,鉴于这些因素,连续体的性质不可能是其他任何东西,而只能是所陈述的内容。逻辑效度,也称为表面效度,几乎总是被采用,因为它自然地源于对连续体的细致描述和项目的选取。
具有逻辑/表面效度的测量直接关注测试者感兴趣的行为类型。例如:解决数学问题的能力通过成功解决这类问题的样本进行测试,而阅读速度则通过计算一个人在一定时间内理解地阅读了多少章节来衡量。虽然存在局限性,但仅仅依靠逻辑和常识确认是不谨慎的。这种效度说法充其量是推测性的,很少是确定的。除了逻辑正确性之外,还需要有效地使用测量工具。
专家意见
这是逻辑效度方法的扩展,只是在这种情况下,推理得到了该测量工具使用领域的专家组的证实。例如,如果开发一个评估学龄前儿童智力迟滞的量表,可以组建一个由心理学家、精神科医生、儿科医生、临床心理学家、社会工作者和教师组成的专家组来确定该量表的效度。但是,存在限制。专家也是人,这种方法只能导致逻辑上的合理性。因此,专家评判效度只比逻辑效度略好。
已知群体
这是逻辑效度方法的扩展,只是在这种情况下,推理得到了该测量工具使用领域的专家组的证实。例如,如果开发一个评估学龄前儿童智力迟滞的量表,可以组建一个由心理学家、精神科医生、儿科医生、临床心理学家、社会工作者和教师组成的专家组来确定该量表的效度。
但是,存在限制。专家也是人,这种方法只能导致逻辑上的合理性。因此,专家评判效度只比逻辑效度略好。除了他们已知的宗教实践外,群体间的其他差异也可能导致量表分数的差异。
独立标准
虽然这是一个很好的理论策略,但其实践通常是有问题的。标准测量应该具有四个特征。它们按重要性递减的顺序排列:
相关性 - 如果标准测量中的等级与量表分数相符,我们认为标准是相关的。
无偏差 - 这意味着该指标应该是每个人都有相同机会获得好成绩的指标。偏差变量包括制造工人的设备或工作条件的质量差异以及不同班级学生的教育质量差异。
可靠性 - 如果标准分数每天波动,以至于一个星期表现好的人下个星期可能表现差,或者一个从一位主管那里获得好评的人从另一位主管那里获得差评,那么就没有办法创建能够预测该分数的测试。没有任何其他东西可以预测本身完全不稳定的测量。
可用性 - 最后,在选择标准测量时,我们总是面临便利性和可用性的实际问题。
任何选择的标准测量都必须有一个现实的限制来解释。但是,当独立标准良好时,它就成为一个强大的工具,并且可能是最成功的效度验证程序。
影响效度的因素
许多因素会影响评估工具的效度。Gronlund (1981) 提出了以下因素:
测试本身的因素
每个测试都有题目。对测试题目的详细检查将揭示测试是否似乎评估了教师希望评估的学科内容和心理功能。测试中的以下问题会阻碍测试题目正常发挥作用并降低效度。
方向不明确 - 如果学生需要帮助理解如何解答题目,是否允许猜测以及如何记录答案,则效度会受到影响。
阅读术语和句子结构的难度 - 为参加考试的学生设计的复杂的语言和短语结构可能会干扰对儿童表现要素的衡量,从而降低效度。
测试题目难度不足 - 当测试题目的难度不合适时,工具的效度就会受到影响。例如,在标准参照测试中未能达到学习结果规定的难度会降低效度。
试题准备不足 - 包含意外答案提示的试题往往会评估学生识别线索的能力以及最终影响效度的学生表现因素。
含糊不清 - 测试项目陈述中的含糊不清会导致误解、相互矛盾的解释和混淆。它有时会比差生更让好学生感到困惑,导致负向区分。因此,测试的效度受到影响。
测试题目不适合所测量的结果 - 通常会尝试用仅适用于测试事实信息的测试形式来评估一些复杂的成就、理解、思维、能力等类型。
内容功能和教学程序
在绩效评估中,测试题目的内容功能不能仅仅通过检查测试的设计和内容来识别。在将问题纳入测试之前,教师必须彻底讲解如何解决问题。如果测试题目按计划执行,则复杂的学习结果测试是有效的。假设学生之前有解决考试中包含的问题的经验。在这种情况下,此类测试不再可靠地用于评估更复杂的心理过程,其效度因此受到影响。
测试管理和评分中的因素
测试管理和评分方法也可能影响结果解释的效度。例如,在教师编制的考试中,诸如时间不足以完成考试、对特定学生提供不公平的帮助、考试作弊以及论文答题评分错误等变量可能会降低效度。同样,在标准化考试中,不遵守常规指示和时间、未经授权地帮助学生以及评分错误会降低效度。无论是教师编制的测试还是标准化考试,测试期间令人不快的身体和心理环境都可能影响效度。
学生反应中的因素
某些个人特质会影响学生对考试情境的反应,导致测试结果解读不准确。情绪低落、缺乏动力或对考试场景感到恐惧的学生可能无法正确作答,从而影响测试的效度。作答方式也会影响测试结果。学生的得分受其考试习惯的影响。作答模式是指持续倾向于以相似的方式反应测试项目。
群体性质与效标
先前已指出,效度总是针对特定群体而言的。年龄、性别、能力水平、教育经历和文化背景都会影响测试结果。因此,测试手册中应注明效度验证群体的类型。
计算效度系数时,另一个关键的考虑因素是所用效标的性质。例如,科学能力测试的得分很可能对环境学课程的成就提供更准确的预测。在其他条件相同的情况下,效度系数越高,测试评估的绩效与效标所示绩效之间的相似性就越大。
结论
一项测试在多大程度上测量了其承诺测量的方面,这被称为其效度。如果测试的结论合适、可理解且有价值,则该测试是有效的。实验室外的事件、成熟、测试效应、回归效应、选择和死亡都会影响实验的内部效度。源于对其他受试者、时间范围或情境的概括化的问题是外部效度威胁的例子。可以通过阻止实验者了解实验的情况或目的,并尽可能标准化流程来减少实验者偏差。