贝叶斯思维
一个问题,你会换吗?
公司的年会上,贴心的公司准备了一个压轴抽奖节目,全场就你最幸运,上台代表全体打工人抽奖,你抽中什么,全体打工人都一人一份。
主持人给你安排了三道门在面前,你和打工人们都看不到门后面是什么。
这时候,主持人说:有一道门后面写着:一人十万元奖金,剩下两道门后面写着:春节继续无偿加班 7 天的通知,赶紧选一个吧!
你当然知道,1、2、3 号门内,选到十万块的概率均等,都是 1/3。于是你点兵点将选到了 1 号门。
这时候,主持人把 2 号门打开了,门后是“春节继续无偿加班 7 天”的通知。主持人神秘一笑,问你这个天选打工人:给你个机会,放弃 1 号门,选 3 号门,你换不换?
你想想,你要换门吗?直觉告诉我们,每道门概率是一样的,换不换都一样。如果要换的话,万一十万元大奖在 1 号门后面怎么办?大家会骂死我。如果没换,也有可能大奖在 3 号门后,也许一开始就错了。真是纠结啊!人生这样的纠结时刻肯定很多,要是有办法能让我们少一些纠结就好了!
有!那就是贝叶斯思维,帮我们做出更加理性和不后悔的选择。
现在,台上的你突然贝叶斯附体,你开动你的脑袋瓜,理性思考换不换门的问题。
你现在换不换门,和一开始选择的时候选哪个门,有什么不同呢?最大的不同就是主持人已经打开了 2 号门,而且后面还是天煞的加班。这是一个重要且唯一的证据,你要好好利用。
现在你对自己说:当我知道了主持人打开 2 号门,而且背后是天煞的加班,这时候 只剩 1 号门和 3 号门,那么 1 号门后面是十万块的可能性有多大?3 号门后面是十万块的可能性有多大?反正主持人打开 2 号门之前,1 和 3 号门都是 1/3。
为了思考方便,我用两个字母代替这几件事。
E=主持人打开 2 号门,而且背后是天煞的加班。E 代表 Evidence,证据。
H1=1 号门后面是十万块。
H3=3 号门后面是十万块。
这时候,观众席中有个人大声问你:为什么没有 H2 呢?要是有 H2,那不说明主持人打开了一个有奖金的门吗,现在没有发生这件事,所以没有 H2。
你要计算出在已知 E 的前提下,H1 和 H3 的概率。贝叶斯附体的你鬼使神差地 想起了自从概率论考试结束后再也没用过的贝叶斯公式:
P(H3|E)=P(E|H3)P(H3)/P(E)
等号左边,P(H3|E)就是:当我知道了主持人打开 2 号门,而且背后是天煞的加班,这时候 只剩 1 号门和 3 号门,那么 3 号门(也就是要换门的话)后面是十万块的可能性有多大?
等号右边,分子P(E|H3)P(H3)就是:如果3 号门后有十万块(表示为P(H3)),主持人打开 2 号门,而且背后是天煞的加班(表时为P(E|H3)),这事儿可能性有多大?
等号右边,分母P(E)就是:别管几号门后面有奖金,主持人打开 2 号门,而且背后是天煞的加班这事儿可能性有多大?
一个一个来算。
等号右边的分子P(H3),就是主持人打开门之前,1 号门、2 号门、3 号门后面有奖金的可能性都是 1/3。
等号右边分子P(E|H3),如果奖金在 3 号门,主持人他只会打开 2 号门,不会打开 1 号和 3 号门的,为什么?如果你是主持人你也会这样做。也就是说,打开2 号门且背后没有奖金的可能性是 100%,是 1。
所以等号右边的分子就是:1/3。
等号右边的分母,P(E),这个要分三种情况讨论,最后把他们加起来就是P(E)了。1)如果 1 号门后面是奖金,这个概率有 1/3,那么主持人知道这个背景的前提下,他打开 2 号门,而且背后没有奖金的可能性就是 1/2,也就是从 2 和 3 号门随便挑一个,相乘就是 1/3*1/2=1/6;2)如果 2 号门后面有奖金,主持人根本不会打开的,所以可能性为 0;3)如果 3 号门后面有奖金,前面算分子的时候,已经算过了,是 1/3。三种情况相加就是:1/6+1/3=1/2。
按照贝叶斯显灵给你的公式,你算出来:P(H3|E)=P(E|H3)P(H3)/P(E)=2/3
同样的过程,你会算出来(其实根本不用算)这时候还坚持 1 号门,得到奖金的概率没变,还是 1/3。
对比一下,换成 3 号门,得奖的可能性就会翻倍哦!换不换?当然换!脑壳有包才不换。
这是怎么回事呢?抛开贝叶斯显灵的那一趴,冷静一项,就知道不对劲的根本原因是主持人他知道门后有啥,所以,他的选择本身蕴含了的信息量,一下子排除一个错误答案,你如果死守着所谓的“初心”,你根本享受不到这个信息量带来的红利,因为无论外界发生了什么,原来的选择不变,那么概率就还是 1/3,而外界已经变化了,3 号门就独享了剩下所有的概率空间 2/3 了。
如果上面这个问题还有点反直觉,那么我们可以想想,如果有 10 道门,主持人开了 8 道门,剩下两道门,一道是你最初选的 1 号门,另外还有一道门,你换不换?这个直觉就更明显了,肯定换,因为这时候 1 号门还有奖的概率依然是最初的 1/10,而剩下那道门有奖的概率就是 9/10 了。
好,我相信聪明的你接受了这个现状,说明你已经在用贝叶斯思维了。
呐,这就是贝叶斯思维
那么,再看看贝叶斯带来的这个公式:P(H3|E)=P(E|H3)P(H3)/P(E)。它有几个特征。
- 当我们什么都不知道时,什么都没发生时,我们心中认定的选择就是P(H3)。贝叶斯把这个叫做先验概率。
- 当有一些事实摆在面前后,我们认定的选择就不再是P(H3),而是P(H3|E),这也是我们最关心的,也是解除纠结的核心点。贝叶斯把这个叫做后验概率。
- 那么这个事实和我我们的选择的关系就很重要了,如果选择H3是靠谱的,眼前看到的这个事实还会存在吗?P(E|H3)就是这个意思。贝叶斯把这个叫做条件概率,就是 H3 的条件下 E 的概率。
- 可是我们不选 H3,事实也可能出现啊,不管 H3 出不出现,这个事实本身可能性大吗?P(E)就是这个意思。贝叶斯把这个叫做全概率,也就是全部情况都考虑到的情况下,发生的概率,我们从前面的抽奖例子看得出来,全概率就是各种情况下的条件概率加权求和。
所以,如果眼前的事实和选择无关,那么P(E|H3)=P(E)。这时候P(H3|E)=P(H3)。如果有关,选择靠谱的可能性就会变化。前面的抽奖例子,就非常有关,因为主持人不会选你选过的门,主持人也不会选背后有奖金的门。
我们对贝叶斯文火慢炖到现在,鸡汤味也就比较浓郁了:
贝叶斯思维,是一个强调迭代的思维。最初我们是对某些事有判断,但是当新的证据摆在面前时,我们要懂得审时度势,迭代自己的判断。一句话:贝叶斯不相信初心,只相信事实。
贝叶斯公式,看上去很简单,其实应用非常广泛。尤其是在人工智能领域,可以说无所不在,但是有更多符合实际的变化。比如说:
- 每一个事件发生的概率模型,可能不像前面开门那样是一个均匀概率模型,可能是一个更为复杂的概率模型,为了让贝叶斯公式计算出来的后验概率,在下次看到新证据时又作为先验概率使用,还会引入共轭分布的概念,为了数学上计算方便。
- 比如要把证据特征化,也就是用一堆标签来代表一个证据,而不是一个证据整体。
- 现实中,各个证据之间可能还存在一些依赖关系,这就要引入贝叶斯网络了。
今天讲的贝叶斯思维,只是介绍这种思维,但是我们完全可以进一步深入学习贝叶斯思维, 把它变成我们人生决策的工具。这里推荐一些相关的书继续了解贝叶斯思维的细节和应用:《思考,快与慢》,《贝叶斯博弈》,《信号与噪声》。以后有机会我也会再介绍细节和应用。