为什么朴素贝叶斯分类器被称为“朴素” (Pǔsù)?

数据挖掘数据库数据结构

贝叶斯分类器是统计分类器。它们可以预测类成员概率，例如给定样本属于特定类的概率。贝叶斯分类器应用于大型数据库时也表现出很高的准确性和速度。

一旦定义了类别，系统应该推断控制分类的规则，因此系统应该能够找到每个类别的描述。描述应该只参考训练集的预测属性，以便只有正例应该满足描述，而不是反例。如果规则的描述涵盖所有正例并且没有涵盖任何反例，则该规则被认为是正确的。

它假设所有属性的贡献都是独立的，并且每个属性对分类问题贡献相同，这是一种称为朴素贝叶斯分类的简单分类方案。通过分析每个“独立”属性的贡献，可以确定条件概率。通过组合不同属性对要进行的预测的影响来进行分类。

朴素贝叶斯分类之所以被称为朴素，是因为它假设类条件独立性。属性值对给定类别的影响独立于其他属性的值。做出这个假设是为了降低计算成本，因此它被认为是“朴素”的。

贝叶斯定理 − 令 X 为数据元组。在贝叶斯术语中，X 被认为是“证据”。令 H 为某种假设，例如数据元组 X 属于指定的类 C。确定概率 P(H|X) 来对数据进行分类。此概率 P(H|X) 是在给定“证据”或观察到的数据元组 X 的情况下假设 H 成立的概率。

P(H|X) 是以 X 为条件的 H 的后验概率。例如，假设数据元组的世界仅限于分别由属性年龄和收入描述的客户，并且 X 是 30 岁的客户，收入为 20,000 元。假设 H 是客户将购买电脑的假设。然后 P(H|X) 反映了已知客户的年龄和收入的情况下，客户 X 将购买电脑的概率。

P(H) 是 H 的先验概率。例如，这是任何给定客户购买电脑的概率，而不管年龄、收入或任何其他信息。后验概率 P(H|X) 基于比先验概率 P(H) 更多的信息，先验概率 P(H) 与 X 无关。

类似地，P(X|H) 是以 H 为条件的 X 的后验概率。它是客户 X 年龄为 30 岁且收入为 20,000 元的概率。

P(H)、P(X|H) 和 P(X) 可以从给定数据中估计。贝叶斯定理提供了一种从 P(H)、P(X|H) 和 P(X) 计算后验概率 P(H|X) 的方法。它由下式给出

$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$

基尼系数 (Jīní xièshù)

更新于： 2021年11月23日

3K+ 次浏览

开启你的职业生涯

完成课程获得认证

广告

© . All rights reserved.