- 热门分类
- 数据结构 (Shùjù jiégòu)
- 网络 (Wǎngluò)
- 关系数据库管理系统 (Guānxi dànshùjù guǎnlǐ xìtǒng, RDBMS)
- 操作系统 (Càozùo xìtǒng)
- Java
- MS Excel
- iOS
- HTML
- CSS
- Android
- Python
- C语言编程 (C yǔyán biānchéng)
- C++
- C#
- MongoDB
- MySQL
- Javascript
- PHP
- 物理学 (Wùlǐxué)
- 化学 (Huàxué)
- 生物学 (Shēngwùxué)
- 数学 (Shùxué)
- 英语 (Yīngyǔ)
- 经济学 (Jīngjìxué)
- 心理学 (Xīnlǐxué)
- 社会学 (Shèhuìxué)
- 服装设计 (Fúzhuāng shèjì)
- 法学 (Fǎxué)
为什么朴素贝叶斯分类器被称为“朴素” (Pǔsù)?
贝叶斯分类器是统计分类器。它们可以预测类成员概率,例如给定样本属于特定类的概率。贝叶斯分类器应用于大型数据库时也表现出很高的准确性和速度。
一旦定义了类别,系统应该推断控制分类的规则,因此系统应该能够找到每个类别的描述。描述应该只参考训练集的预测属性,以便只有正例应该满足描述,而不是反例。如果规则的描述涵盖所有正例并且没有涵盖任何反例,则该规则被认为是正确的。
它假设所有属性的贡献都是独立的,并且每个属性对分类问题贡献相同,这是一种称为朴素贝叶斯分类的简单分类方案。通过分析每个“独立”属性的贡献,可以确定条件概率。通过组合不同属性对要进行的预测的影响来进行分类。
朴素贝叶斯分类之所以被称为朴素,是因为它假设类条件独立性。属性值对给定类别的影响独立于其他属性的值。做出这个假设是为了降低计算成本,因此它被认为是“朴素”的。
贝叶斯定理 − 令 X 为数据元组。在贝叶斯术语中,X 被认为是“证据”。令 H 为某种假设,例如数据元组 X 属于指定的类 C。确定概率 P(H|X) 来对数据进行分类。此概率 P(H|X) 是在给定“证据”或观察到的数据元组 X 的情况下假设 H 成立的概率。
P(H|X) 是以 X 为条件的 H 的后验概率。例如,假设数据元组的世界仅限于分别由属性年龄和收入描述的客户,并且 X 是 30 岁的客户,收入为 20,000 元。假设 H 是客户将购买电脑的假设。然后 P(H|X) 反映了已知客户的年龄和收入的情况下,客户 X 将购买电脑的概率。
P(H) 是 H 的先验概率。例如,这是任何给定客户购买电脑的概率,而不管年龄、收入或任何其他信息。后验概率 P(H|X) 基于比先验概率 P(H) 更多的信息,先验概率 P(H) 与 X 无关。
类似地,P(X|H) 是以 H 为条件的 X 的后验概率。它是客户 X 年龄为 30 岁且收入为 20,000 元的概率。
P(H)、P(X|H) 和 P(X) 可以从给定数据中估计。贝叶斯定理提供了一种从 P(H)、P(X|H) 和 P(X) 计算后验概率 P(H|X) 的方法。它由下式给出
$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$