贝叶斯算法

1 朴素贝叶斯

朴素贝叶斯(Naive Bayes classifier)以贝叶斯定理为基础的简单分类器

贝叶斯定理: $$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$$

朴素贝叶斯主要通过统计历史数据中各种事件的发生频率,并从中寻找统计上的相关性,以实现对事件的预测。

假设事件$A$表示头疼,事件$B$表示感冒,可通过以下案例理解朴素贝叶斯的计算过程:

  • 假设存在一位经验丰富的医生,在过去的一年里曾面诊过1000位的患者
  • 其中出现头疼症状的患者有300位,即$P(A)=0.3$
  • 最终确诊为感冒的患者有500位,即$P(B)=0.5$
  • 确诊为感冒的患者中有200位患者出现了头疼的症状,即$P(A|B)=0.4$
  • 现在医生遇见了一位出现头疼症状的患者,问这位患者可能感冒的概率?
  • 借助贝叶斯定理,易得患者感冒的概率为$P(B|A)=0.4\times 0.5/0.3 \approx 0.67$

注:以上案例中的数据是捏造的,请勿当真

算法分析:

  • 模型假设不同特征间是独立的,此假设通常是不成立的,但实践中依然存在有效性
  • 逻辑简单,易于实现和理解,不适用于特征间存在较高相关性的数据集
  • 作为统计学派的基础定理,在此基础上可以衍生出很多有趣的进阶算法

#贝叶斯 #朴素贝叶斯

往年同期文章