一个真实却又有些荒谬的故事:
一位通用旗下品牌庞蒂亚克汽车用户,发现每当他购买香草口味的冰激凌后,他的汽车就无法启动。于是这位顾客给通用写了两封投诉邮件,并在第二次发送邮件后,成功揭开了汽车与冰激凌之间的关系谜团。
图片来源:图虫创意
顾客的投诉邮件
这位顾客家有个传统:每天晚饭后一家人开车去吃冰激凌,并且每天晚上买不同口味的冰激凌。但是当他去买冰激凌时发现了一个问题:每当买香草冰激凌,汽车都不启动,但如果买其他口味的冰激凌,汽车就会很好地启动。
汽车公司的经理虽然很怀疑事情的真实性,但还是派了一位工程师调查这个问题。
工程师和车主见了面,约定一起去买香草冰激凌,他们到了商店,买完冰激凌,发现车真的不启动了。
工程师尽量还原场景,并连着三天晚上开车去买冰激凌。
第一晚,买巧克力味的,车启动了。第二晚,买草莓味的,车启动了。第三晚,买香草味的,车不启动。
这到底是怎么回事?经过仔细地勘察和分析,工程师发现,买香草冰激凌所用的时间远比买其他口味的要短。
香草冰激凌卖得最好,它被放在商店离门口很近的地方,不需要找,直接拿起来付账即可。
购买时间又和车的启动有什么关系?工程师对这个顾客的汽车进行检查,发现了“气阻”的问题。气阻通常在发动机较热时出现,如果汽车的供油系统中出现气阻,引擎吸燃料时燃料的供应会变得断断续续,汽车会因此无法启动或者在行进时熄火。
这位顾客购买的庞蒂亚克汽车就有气阻的问题。购买其他口味冰激凌花费的时间足以让引擎冷却从而让车顺利启动,而当顾客购买香草冰激凌时,时间短,引擎太热,气阻无法及时消失,汽车因此无法启动。
工程师解决了顾客汽车的气阻问题,这位顾客以后在购买任何口味的冰激凌时,再也没有出现车无法启动的情况。
大部分人看完上文中的故事的收获是:有时候问题看起来无解,但在冷静思考后会发现它的确可以被解释。如果从数学思维深入分析就会发现,故事中包含了一个数学概念——条件独立。
学会条件独立思维,避免陷入混乱
条件独立和条件概率有关。我先介绍什么是条件概率。条件概率通常写成P( A|C ) 的形式,即在事件C发生的情况下,事件A发生的概率。
例如,下雨天通常选择打车上班。在这个例子里,C就是“下雨天”,A就是“打车”,而P( A|C ) 就是一个接近1的概率值(下雨天通常会打车)。如果去掉C下雨天这个条件,P( A ) 就是通常情况下你打车的概率。明显可以看出,P( A|C ) 和 P( A ) 是不同的。
知道了什么是条件概率,我们就可以给出条件独立的定义。在数学上,如果事件A和事件B关于事件C条件独立,那么有:
P( B|A, C ) = P( B|C )
P( A|B, C ) = P( A|C )
P( B|A, C ) 是在事件A和事件C同时发生的情况下事件B发生的概率,P( B|C ) 是在事件C发生的前提下事件B发生的概率。这个公式告诉我们,在条件独立的情况下,这两个概率是相同的。
这样说有些抽象,我们来举个例子:
一项调查发现,每当伦敦的出租车驾驶员穿夹克,发生车祸的概率都会大大增加。很多人猜想是穿夹克导致驾驶员的操作不便,从而增加了事故发生率。后来又经过仔细研究发现:下雨天,驾驶员经常穿夹克;下雨时,发生车祸的概率大。
这个例子中,事件A是“穿夹克”,事件B是“发生车祸”,事件C是事件背后共同的原因:“下雨天”,三者的关系如图 7-2 所示,
也就是说,我们知道了“下雨天”,自然就可以推断出“发生车祸”的概率比较高,并且“驾驶员穿夹克”实际上并不能帮助我们更好地推测“发生车祸”的概率。
因此,“穿夹克”(事件A)和“发生车祸”(事件B)这两个事件之间没有因果关系,它们关于“下雨天”(事件C)条件独立。
总结一下,如果事件A和事B关于事件C条件独立,那么在知道事件C发生的前提下,知道事件A或事件B中的一个是否发生,并不能帮助我们更好地推断出另外一个事件发生的概率。
这就是条件独立的核心思想。
生活中常见的条件独立案例
如果有一天你家里没人,并且电器发生自燃、引发了火灾,你的左右邻居看到后,都有一定概率会拨打报警电话,但是他们之间不会询问对方是否打过报警电话。
这个例子中有三个事件:事件A“邻居A报警”,事件B“邻居B报警”和事件C“房屋着火”。在这三个事件中,如果我们知道了“房屋着火”,那么我们立刻可以推断“邻居A报警”的概率很高。知道“邻居B报警”,并不能帮助我们推断出“邻居 A 报警”的概率。
也就是说,“邻居A报警”和“邻居B报警”关于“房屋着火”条件独立。
再来看个条件独立的例子:
心理学上有一个情绪ABC理论。这是美国心理学家阿尔伯特·艾利斯(Albert Ellis)提出的一种情绪调节法。这里的A代表激发事件(Activating event),是引发情绪和结果C的间接原因,而引起结果C的直接原因则是个体基于对激发事件A的认知和评价所产生的信念B。(见图7-5))
假如一个小学生学习不够努力、成绩不好,他的父母自然感到很生气。很明显,学习不够努力、成绩不好,就是父母生气的直接原因。
可是,仔细分析后会发现,上文的推理过程并不完全正确。可能孩子学习不好并不会直接让家长郁闷,让家长郁闷的推理链的中间还有一环,那就是家长的认知。在已知“家长的认知更全面”的前提下,知道“孩子的成绩”,并不能帮助我们更好地推测“家长的反应”。
也就是说,“孩子的成绩”(事件A)和“家长的反应”(事件C)关于“家长的认知”(事件B)条件独立。
回到开头买香草冰激凌汽车就启动不了的问题:
其中事件A是“购买香草冰激凌”,事件B是“车启动不了”,事件C是“购买时间短”。
“车启动不了”的内在原因是“购买时间短”,而不是“购买香草冰激凌”。在“购买时间短”这个事件发生的前提下,知道“购买香草冰激凌”并不能帮助我们更好地推断“车启动不了”的概率。
所以,“购买香草冰激凌”(事件A)和“车启动不了”(事件B)关于“购买时间短”(事件C)条件独立。
综合上述生活中的案例,我们不难看出,两个事件看似相关,实则关于另外一个事件条件独立的情况非常普遍。如果意识不到这一点,就很容易犯把“相关性”当成“因果性”的错误。学会条件独立的数学思维,才能帮助我们有效避免陷入混乱。
文章由科普中国-星空计划(创作培育)出品,转载请注明来源。
作者:北京航空航天大学副教授、博士生导师 刘雪峰
审核:华中师范大学数学与统计学学院 副教授 邓清泉
来源: 星空计划
内容资源由项目单位提供