判别分析的性能如何?
判别分析方法依赖于两个主要假设才能得到分类分数——首先,它认为某些类别中的预测变量测量值来自多元正态分布。当这个假设合理成立时,判别分析比其他分类方法(包括逻辑回归)更有效。
研究表明,如果数据符合多元正态分布,判别分析比逻辑回归有效率提高 30%,它只需要 30% 的数据量就能达到相同的精度。研究还表明,该方法对偏离正态性的情况具有较强的鲁棒性,即预测变量可以是非正态的,甚至可以是虚拟变量。
这在最小类别足够大(大约超过 20 条记录)的情况下是成立的。这种方法对单变量(单个预测变量)和多变量区域的异常值都比较敏感。应使用探索性分析来定位极端值,并确定是否可以将其移除。
判别分析的第二个假设是,在一个类别中多个预测变量之间的相关结构在各个类别之间是相同的。这可以通过分别计算每个类别的预测变量之间的相关矩阵并比较这些矩阵来检查。
如果相关性在各个类别之间差异很大,则分类器将倾向于将记录划分到方差最大的类别中。当相关结构存在显著差异且数据集较大时,可以使用二次判别分析作为替代方法。
一种折衷的方法是进行一些关于正态性和相关性的探索性分析,训练并计算模型,然后根据分类精度和从初始探索中获得的知识,回过头来进一步探索是否需要检查异常值或重新选择预测变量。
使用验证集来评估性能的论点仍然适用。例如,在割草机家族中,1、13 和 17 号被错误分类。这意味着该模型对于这些记录的错误率为 12.5%。
这个比率是一个有偏差的度量——它是乐观的,因为它使用了相同的数据来拟合分类函数和计算错误。因此,与许多模型一样,它可以在一个验证集上检查性能,该验证集包含未用于计算分类函数的数据。
可以从判别分析中获得混淆矩阵,这需要精确的分类分数或从分类分数计算出的概率(类别成员的概率)。在这两种情况下,每条记录的类别分配都取决于最大的分数或概率。可以将这些分类与这些数据的实际类别成员进行比较。这将产生混淆矩阵。