朴素贝叶斯算法:先验概率、似然性和边缘似然性
简介
基于贝叶斯定理,朴素贝叶斯算法是一种概率分类技术。它基于这样的假设:一个特征在某个类别中的存在与其他特征的存在无关。该技术的应用包括文本分类、情感分析、垃圾邮件过滤和图像识别等。作为概率论中的一个关键概念,贝叶斯定理提供了一种计算事件发生概率的方法,前提是已知相关事件的概率。条件概率,即在另一个事件发生的情况下某个事件发生的概率,构成了其理论基础。
先验概率、似然性和边缘似然性
根据贝叶斯定理,给定证据(E)时假设(H)的概率等于给定假设时证据的概率乘以假设本身的概率。其数学表达式如下:
P(H|E) = P(E|H) * P(H) / P(E)
其中,P(E) 是边缘似然性,P(H|E) 是给定证据时假设的后验概率,P(E|H) 是给定假设时证据的似然性。
关于特征的独立性,朴素贝叶斯方法涉及一些假设。假设给定类别时,特征彼此之间是独立的。尽管在实践中这个假设并不总是准确的,但该方法仍然可以产生有意义的结果。
先验概率
在朴素贝叶斯方法中,先验概率是在观察到任何特征之前每个类别的概率。例如,在具有类别 A 和 B 的二元分类问题中,类别 A 的先验概率是在观察到任何特征之前,一个项目属于类别 A 的概率。类别 B 的先验概率是在观察到任何特征之前,一个项目属于类别 B 的概率。
通常可以通过计算每个类别中项目的百分比来从训练数据中估计先验概率。例如,如果训练数据中有 100 个项目,其中 60 个属于类别 A,40 个属于类别 B,那么类别 A 和类别 B 的先验概率分别为 0.6 和 0.4。
似然性
在朴素贝叶斯方法中,似然性是给定类别时观察到每个特征的概率。例如,如果有两个特征 X1 和 X2,以及两个类别 A 和 B,那么给定类别 A 时特征 X1 的似然性就是属于类别 A 的项目中观察到特征 X1 的概率。给定类别 B 时特征 X2 的似然性就是属于类别 B 的项目中观察到特征 X2 的概率。
通常通过计算每个类别中具有每个特征的项目的数量来使用训练数据计算似然性。例如,如果类别 A 中有 60 个项目,其中 30 个具有特征 X1,那么给定类别 A 时特征 X1 存在的概率为 0.5。
边缘似然性
在朴素贝叶斯方法中,边缘似然性是观察到证据的概率。在朴素贝叶斯方法中,证据被认为是对于一个项目观察到的特征集。例如,如果有两个特征 X1 和 X2,并且一个项目具有 X1 但不具有 X2,那么证据将是“X1,非 X2”。
通常通过将每个类别的先验概率和似然性加起来来计算边缘似然性。例如,如果有两个类别 A 和 B,并且先验概率分别为 0.6 和 0.4,并且对于类别 A 和 B,特征 X1 和 X2 的似然性分别为 0.5 和 0.2 以及 0.3 和 0.8,那么观察到 X1 而非 X2 的边缘似然性将是:
P({X1, not X2}) = P(X1|A)P(not X2|A)P(A) + P(X1|B)P(not X2|B)P(B)
= 0.50.70.6 + 0.20.20.4
= 0.19
后验概率
在朴素贝叶斯算法中,后验概率是给定证据时每个类别的概率。它是通过结合使用先验概率、似然性和边缘似然性以及贝叶斯定理来确定的。选择具有最高后验概率的类别作为项目的预测类别。
例如,如果有两个类别 A 和 B,证据是 X1,非 X2,并且先验概率和似然性如上所述,则后验概率可能如下所示。
P(A|{X1, not X2}) = P({X1, not X2}|A)P(A) / P({X1, not X2}) = 0.5 * 0.7 * 0.6 / 0.19 = 0.92
P(B|{X1, not X2}) = P({X1, not X2}|B)P(B) / P({X1, not X2}) = 0.2 * 0.2 * 0.4 / 0.19 = 0.42
因此,项目的预测类别将是 A。
结论
总之,朴素贝叶斯方法是一种概率分类系统,它使用贝叶斯定理根据可用数据确定每个类别的后验概率。似然性是给定类别时观察到每个特征的概率,先验概率是在观察到任何特征之前每个类别的概率,边缘似然性是观察到证据的概率。朴素贝叶斯方法基于这样一个假设:给定类别时,特征彼此之间是独立的。尽管存在这个假设,但朴素贝叶斯方法被广泛使用,并且在现实世界场景中通常是有效的。