贝叶斯定理: $$P(B|A)=\frac{P(A,B)}{P(A)}=\frac{P(A|B)P(B)}{P(A)}$$
- 其中 $P(B|A)$ 表示后验概率 $posterior$
- $P(A,B)$ 表示联合概率,$P(A)$ 表示历史经验 $evidence$
- $P(A|B)$ 表示似然估计值 $likelihood$,$P(B)$ 表示先验概率 $prior$
朴素贝叶斯
朴素贝叶斯(Naive Bayes classifier)以贝叶斯定理为基础的简单分类器,主要通过统计历史数据中各种事件的发生频率,并从中寻找统计上的相关性,以实现对事件的预测。
假设事件$A$表示头疼,事件$B$表示感冒,可通过以下案例理解朴素贝叶斯的计算过程:
- 假设存在一位经验丰富的医生,在过去的一年里曾面诊过1000位的患者
- 其中出现头疼症状的患者有300位,即$P(A)=0.3$
- 最终确诊为感冒的患者有500位,即$P(B)=0.5$
- 确诊为感冒的患者中有200位患者出现了头疼的症状,即$P(A|B)=0.4$
- 现在医生遇见了一位出现头疼症状的患者,问这位患者可能感冒的概率?
- 借助贝叶斯定理,易得患者感冒的概率为$P(B|A)=0.4\times 0.5/0.3 \approx 0.67$
在以上示例中,医生可以根据历史的行医经验判断出一位新患者感冒的概率为 50%,这被称为先验概率 $prior$,而当这位新患者表现出头疼症状时,该患者感冒的概率则为 40%,这被称为后验概率 $posterior$ 先验概率:没有新信息时的基于历史经验的概率估计 后验概率:获得新信息后,根据先前的经验和新数据重新计算的概率
注:以上案例中的数据是捏造的,请勿当真
算法分析:
- 模型假设不同特征间是独立的,此假设通常是不成立的,但实践中依然存在有效性
- 逻辑简单,易于实现和理解,不适用于特征间存在较高相关性的数据集
- 作为统计学派的基础定理,在此基础上可以衍生出很多有趣的进阶算法