心理学中选择模型的应用
当样本的一个方面的分数可能受到非随机选择过程的影响时,主要需要考虑选择模型。采用两阶段回归分析来无偏地估计参数和标准误差。女性的薪资就是一个可以用这种方法分析的数据例子:数据的一些方面可以用标准回归方法建模,但还需要考虑大量为零的薪资(反映一些女性不工作的决定)。
什么是选择模型?
选择模型可以表述为从一组候选模型中选择一个统计模型。在最基本的情况下,会考虑现有的一组数据。然而,这项任务也可能包括实验设计,以便收集到的数据非常适合模型选择问题。在具有可比预测能力或解释能力的候选模型中,最简单的模型是最佳选择。模型选择是科学探究中最基本任务之一。识别解释一系列观察结果的原理,通常与预测这些观察结果的数学模型相关。例如,伽利略在他的斜面实验中证明,球体的运动符合他的模型预测的抛物线。
选择模型的方向
从数据中进行推断和学习有两个主要目标。一个是进行科学发现,理解潜在的数据生成机制和数据解释。数据学习的另一个目标是预测未来或未知的观察结果。在第二个目标中,数据科学家有时只关心数据的精确概率描述。当然,也可能同时关注这两个方向。与这两个不同的目标相一致,模型选择也可以有两个方向:用于推断的模型选择和用于预测的模型选择。第一步是找到能够可靠地描述数据不确定性来源的最佳数据模型,以便进行科学解释。对于这个目标来说,所选模型的可管理性与样本大小至关重要。因此,选择一致性是评估模型选择的合适概念,这意味着,给定足够的数据样本,最稳健的候选模型将被一致地选择。
第二种方法是将模型选择为具有出色预测性能的工具。然而,在后一种情况下,所选模型可能是几个接近的竞争者中的幸运赢家,但预测性能仍然可能是最佳的。如果是这种情况,则模型选择适合第二个目标(预测)。但是,模型用于洞察和解释的用途可能需要更加可靠和准确。此外,对于以这种方式选择的复杂模型,即使是对与选择中使用的数据略微不同的数据的预测,也可能是不合理的。
模型选择的原因
在深入研究模型选择程序之前,有必要回答“为什么”这个问题。原因大多是务实的,涉及节省计算机时间和分析师的注意力。但是,当从这个角度来看时,没有令人信服的理由根据某些标准选择一个单一的最佳模型。拒绝“明显糟糕的模型”,保留一部分进行进一步考虑更有意义。这个子集有时可能包含单个模型,但也可能不包含。此外,如果成本因素驱动模型选择,则可以通过温克勒(1999)提出的效用函数直接将其纳入流程。因此,有充分的理由质疑对这一困境的经典解释。
辅助选择候选模型集的方法
可以考虑四种可行的方法来帮助选择候选模型的绝对集合。它们如下:
模型规范。
数据转换。
探索性数据分析。
科学方法
模型规范
模型规范是开发统计模型过程中的一个步骤。它包括为模型选择合适的函数形式,并决定要包含哪些变量。例如,我们可以根据个人收入、受教育年限和工作经验来指定函数关系。
对数据集中的每个点应用确定性数学函数被称为数据转换;也就是说,每个数据点都被替换为转换后的值,其中 f 是一个函数。转换通常用于使数据看起来更符合统计推断程序的假设,或改进图形的可解释性或外观。几乎总是,数据转换函数是可逆的,并且通常是连续的。通常,转换应用于一组可比测量值。例如,如果我们使用的是以特定货币单位表示的人们收入的数据,则通常会转换每个人的收入值。
数据转换
探索性数据分析
探索性数据分析分析数据集以总结其主要特征,通常使用统计图形和其他数据可视化方法。可以使用或不使用统计模型。但是,EDA 的主要目标是查看数据除了正式建模之外还能告诉我们什么,从而与传统的假设检验形成对比。自 1970 年以来,约翰·图基一直提倡探索性数据分析,以鼓励统计学家探索数据,并可能提出可能导致新的数据收集和实验的假设。EDA 与初始数据分析 (IDA) 不同,后者侧重于检查模型拟合和假设检验所需的假设、处理缺失值和转换变量。EDA 包含 IDA。
科学方法
科学方法是一种获取知识的经验方法,至少自 17 世纪以来就一直是科学发展的特征(几个世纪前也有杰出的实践者;有关更多详细信息,请参阅科学方法历史文章)。它包括仔细观察和严格怀疑所观察到的内容,因为认知假设可能会扭曲对观察的解释。它包括通过归纳法根据这些观察结果发展假设,通过对从假设中推导出的演绎进行实验和基于测量的统计检验来检验假设,并根据实验结果改进(或消除)假设。这些是科学方法的原则,而不是所有科学工作都必须遵循的步骤。
结论
评估和选择与目标一致并最大化绩效的项目的过程称为选择。优先级排序是根据特定标准对项目进行排名或评分以确定执行顺序的过程。因此,借助选择模型和理论,由于自然特征或特性,可以获得优先级排序和努力。