什么是ROC曲线?
ROC代表接受者操作特征曲线(Receiver Operating Characteristic)。ROC曲线是分析两个分类模型的便捷可视化工具。ROC曲线起源于二战期间为搜索雷达图像而产生的信号检测理论。
ROC曲线显示了给定模型的真阳性率或灵敏度(识别出的阳性元组的比例)与假阳性率(错误地将阴性元组识别为阳性元组的比例)之间的权衡。
在给定的二元分类问题中,它使我们能够预测模型准确识别“是”案例的比率与它错误地将“否”案例识别为“是”案例的比率之间的权衡,这适用于测试集的多个“部分”。真阳性率的增加伴随着假阳性率的增加。ROC曲线下的面积是模型准确性的评估指标。
对于给定的分类模型M,要绘制ROC曲线,该模型应该能够返回每个测试元组的预测类别的概率或排序。需要按降序排列测试元组,其中分类器认为通常属于阳性或“是”类的元组位于列表顶部。
朴素贝叶斯和反向传播分类器是合适的,而包括决策树分类器,可以简单地修改以针对每个预测返回类概率分布。ROC曲线的纵轴定义了真阳性率。横轴定义了假阳性率。M的ROC曲线绘制如下。
它从左下角开始(真阳性率和假阳性率均为0),可以测试列表中第一个元组的实际类别标签。如果它是真阳性(即正确识别的阳性元组),则在ROC曲线上,它可以向上移动并绘制一个点。
它显示了两个分类模型的ROC曲线。该图还显示了一条对角线,对于该模型的每个真阳性,通常会遇到一个假阳性。
因此,模型的ROC曲线越接近对角线,模型的效率越低。如果模型是最佳的,则当它向下移动排序列表时,它可能会遇到真阳性。因此,曲线可以从零点陡峭地上升。随后,当它开始遇到越来越少的真阳性和越来越多的假阳性时,曲线趋于平缓。
广告