误报与漏报


简介

准确预测与不准确预测的比率绘制在一个称为混淆矩阵的矩阵中。这将指代二元分类器(错误预测)中真阴性和真阳性(正确预测)与假阴性和假阳性的比率。在数据清理、预处理和解析之后,我们首先将数据馈送到一个有效的模型,该模型自然会以概率的形式生成结果。等等!但是我们如何评估模型的性能呢?

更高的性能,更好的有效性——这正是我们想要的。这时,混淆矩阵就派上用场了。混淆矩阵是机器学习分类的过程评估。本文将介绍假阳性和假阴性之间的区别。

混淆矩阵

它是使用机器学习进行分类问题的性能指标,其输出可以是两个甚至多个类别。表中存在四种可能的预测值和实际值组合。

与混淆矩阵相关的术语有:

  • 真阳性 - 实际值和预测值都为正的情况。

  • 真阴性 - 实际值和预测值都为负的情况。

  • 假阳性 - 实际值为负,预测值为正的情况。

  • 假阴性 - 实际值为正,预测值为负的情况。

混淆矩阵的格式如下:

让我们看一个例子:

假设我们想弄清楚血液癌症检测能够预测患者感染状态的准确程度。这里的冠状病毒检测用于区分两种可能的状态:感染和正常。

  • 真阳性 - 分类器表明该人感染了,第二次癌症检测证实了这一发现。因此,测试是正确的。

  • 假阳性 - 某人的初步检测结果呈阳性,但随后的 PCR 检测显示该人实际上是阴性,未感染。

  • 真阴性 - 分类器将快速检测分类为阴性,并且该人实际上没有感染。

  • 假阴性 - 分类器将快速检测分类为阳性,但该人实际上已感染且不健康,因此检测结果应为阴性。

假阳性和假阴性之间的区别

以下是假阳性和假阴性之间的一些主要区别:

假阳性

假阴性

实际值为负,预测值为正的情况

实际值为正,预测值为负的情况。

也称为“第一类错误”

也称为“第二类错误”

具有两个类别(真和假)的二元分类示例可以帮助您理解这一点。假阳性值是指那些被认为属于“真”类别的值,但实际上它们不属于“真”类别,而是属于“假”类别。

具有两个类别(真和假)的二元分类场景可以帮助您理解这一点。假阴性值是指那些被认为属于“假”类别的值,但实际上它们属于“真”类别。

这显示了分类器错误预测期望结果的频率。

此错误显示了分类器错误预测不利结果的频率。

假阳性率,也称为误报率,可以定义为假阳性与假阳性和真阴性之和的比率

假阴性与假阴性和真阳性之和的比率称为假阴性率,通常称为漏报率

非垃圾邮件被错误地识别为垃圾邮件。

垃圾邮件被错误地识别为非垃圾邮件。

结论

在本文中,我们了解了假阳性和假阴性之间的区别。我们如何评估机器学习模型将决定它们是成功还是失败。为了公平地评估模型的性能,需要进行彻底的模型分析。

我们已经了解了如何使用混淆矩阵检查机器学习分类器或模型是否正确预测了值以及模型的准确性。因此,混淆矩阵有助于评估分类器。它包含四个字段:真阳性、真阴性、假阳性和假阴性。

更新于: 2023年8月24日

601 次查看

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.