1 朴素贝叶斯
朴素贝叶斯(Naive Bayes classifier)以贝叶斯定理为基础的简单分类器
贝叶斯定理: $$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$
朴素贝叶斯主要通过统计历史数据中各种事件的发生频率,并从中寻找统计上的相关性,以实现对事件的预测。
假设事件$A$表示头疼,事件$B$表示感冒,可通过以下案例理解朴素贝叶斯的计算过程:
- 假设存在一位经验丰富的医生,在过去的一年里曾面诊过1000位的患者
- 其中出现头疼症状的患者有300位,即$P(A)=0.3$
- 最终确诊为感冒的患者有500位,即$P(B)=0.5$
- 确诊为感冒的患者中有200位患者出现了头疼的症状,即$P(A|B)=0.4$
- 现在医生遇见了一位出现头疼症状的患者,问这位患者可能感冒的概率?
- 借助贝叶斯定理,易得患者感冒的概率为$P(B|A)=0.4\times 0.5/0.3 \approx 0.67$
注:以上案例中的数据是捏造的,请勿当真
算法分析:
- 模型假设不同特征间是独立的,此假设通常是不成立的,但实践中依然存在有效性
- 逻辑简单,易于实现和理解,不适用于特征间存在较高相关性的数据集
- 作为统计学派的基础定理,在此基础上可以衍生出很多有趣的进阶算法