贝叶斯分类 郝伟 2020/08/04 [TOC]
1. 前言
条件概率就是指在一个事件发生时,另一事件发生的概率。概念虽然简单,在实际在使用的时候经常让人搞混淆,所以本文通过一些示例,详细介绍条件概率。
2. 示例:男女司机交通事故概率
某市有男司机4000名,女司机1000名,上年共发生了250起交通事故,其中男司机造成了210起,女司机造成的事故40起,根据以上数据,求上年发生事故时司机为女性的概率是多少?
设事件 $A$ =“司机发生事故概率”,事件 $B_1$ =“男司机”,事件 $B_2$ = “女司机”,那么有:
- 任何一名司机发生交通事故的概率:$P(A)=250/(4000+1000)= 0.05$
- 任意选择一名司机是男性时的概率:$P(B_1) = 4000/(4000+1000)=0.8$
- 任意选择一名司机是女性时的概率:$P(B_2) = 1000/(4000+1000)=0.2$
- 男性司机上年发生交通事故的概率:$P(A | B_1)=210/4000= 0.0525$
- 女性司机上年发生交通事故的概率:$P(A | B_2)=40/1000 = 0.04$
题目所要求的发生交通事故时司机为女性的概率可以表示为 $P(B_2 | A)$。
为了方便对比,整理如下表所示:
内容 | 男司机 | 女司机 | 备注
|:--:|:--:|:--:|:--|
总事故率 | - | - | 总计为 $P(A)=0.05$,不分男女。
性别概率 | $P(B_1) = 0.80$ | $P(B_2) = 0.20$ | 司机的性别比
性别事故率 | $P(A$|
$B_1)=0.0525$ | $P(A$|
$B_2)=0.040$ | 在性别确认的情况下,统计事故率。
事故性别率 | $P(B_1$|
$A) = 210/250=0.840$ | $P(B_2$|
$A) = 40/250=0.160$ | 在事故确定的情况下,统计性别比例。
3. 贝叶斯公式
根据贝叶斯公式,可得:
男性的计算方式可以表示为:$P(B_1|A) = 1 - P(B_2|A) = 1 - 0.16 = 0.84$. 同样也可以使用贝叶斯公式可以得到: 结果一致。
我们再来统计 $P(AB)$ 和 $P(AB_2)$,由于 $P(AB) = P(B | A) P(A)= P(A | B) P(B_1)$,所以分别可以计算如下:
可见,使用统计学直接计算,会得到相同的结果。类似地,对于$P(AB_2)$ 有: $P(AB_2) = P(B_2 | A) P(A)=0.160.05=0.08$ $P(AB_2) = P(A | B_2) P(B_2)=0.0400.20=0.08$
4. 全概率公式
另外,根据全概率公式:将数据代入,得:结果与之前的计算一致。
5. 小结
综上所述,在条件概率 $P(Y|X)$中,$X$ 是已经发生了的确定事件,即概率的条件,而 $Y$ 是要求的概率。比如,求“女司机的事故概率”,女司机是已经确定的,而所要求的是事故概率,所以概率表达式为 $P(事故 | 女司机)$。反之,如果是求事故发生时女司机的概率,那么事故是已经发生的,是前提条件,所要求的是女司机的概率,所以表达式可以写成 $P(女司机 | 事故)$,这就是条件概率的本质含义。