随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。言之凿凿的那些从数据中得出的看似“合理”“科学”甚至“高大上”的结论,也许并没有看起来那么值得相信。

 

相关不等于因果

在第二次世界大战中一个关于统计学的小故事流传甚广。讲的是美国陆军航空队为了减少轰炸机部队在执行任务过程中被攻击造成的损失,请统计学家帮忙。只要有执行任务的轰炸机部队返航,统计学家就第一时间详细地记录下每一架飞机受损伤的情况,随后在模型上用墨汁将所有被击中的部位涂黑。

结果,不到两个月时间,轰炸机模型上除了几个很小的区域还是机身原来的颜色以外,其他部位全被涂黑了。并且很多地方显然是被反复涂过,墨汁都已经像油漆一样凝结成厚厚的一层。

统计学家建议厂商将轰炸机上这些没有被涂成黑色的部位,尽快增加装甲。厂商提出疑问:难道不应该是在被涂得最黑的地方增加装甲吗?统计学家给出的理由是,给那些没涂黑的地方加装甲,并不是因为返航的飞机中那里不会被击中,而是因为所有被击中这些部位的飞机,最终都没有返回基地。

这个故事被看作是说明统计学应用的经典案例。看似只是简单逻辑转换的背后,其实涉及诸多复杂的统计学专业知识,中央财经大学统计与数学学院教授、博士生导师张忠元提醒说,这个简单故事背后的专业论文,长度有百页之巨。

说到日常生活中经常遇到的统计学陷阱,张忠元表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。

比如冰激凌的销售量与溺水人数有相关性,溺水人数越多,冰激凌销量越好。

“这很容易知道不是因果关系,而是因为有共同的原因——天气热。天气热,冰激凌的销量自然高;去游泳的人数自然多,那么溺水的人自然也多。”张忠元解释说,有些时候事件之间会呈现相关性,但即使有相关性,也不意味着它们之间有因果关系。“两件事情相关可能有很多原因:A和B相关,有可能A确实是B的原因,也有可能B是A的原因,或者还可能A和B有其他共同的原因C。又A和C共同作用导致了B,也有可能B和C共同作用导致了A。总之,相关不等于因果。”

特别需要注意的是,流行病学调查一般都只能是观察到相关性。不久前一篇名为《男人做家务,死亡率降一半》的文章被热转,该文章基于一篇发表于2013年题目为《家务劳动降低中国男人的全因死亡率和癌症死亡率》的论文。这是一篇关于流行病学调查的研究论文,研究持续了9年。原文在结论部分明确讲道:“我们发现重家务劳动和降低死亡率在老年男性人群中是相关的,在女性人群中没有观察到这种相关性。这种相关性的内在机制需要进一步研究。”

所谓“男人做家务,死亡率降一半”,有明显的标题党之嫌。准确来说,男人做家务和死亡率之间是否有因果性目前还不清楚,还需要继续进行机制方面的研究。

很多情况下,并不需要明确两件事情的因果关系,就可以做一些决策。比如前文提到的溺水人数增加,那么完全可以多进一些冰激凌,销量会增加。

问题随之而来:大数据时代,是不是就不需要研究因果,只知道相关就好了呢?事实上现在的确有一种观点认为:不需要研究因果,只需要知道相关就可以了。

“我认为还是要研究因果的。”张忠元表示,“因为科学研究最重要最基本的出发点和落脚点就是满足全人类的好奇心,就是要知道内在的机理。如果不追求因果的话,就很难了解事情的机理。就背离了初衷。其次,如果不知道因果,就很难做更深层次的决策。比如是不是限制冰激凌销量,就可以降低溺水人数呢?显然是不对的。”

 

可视化误导需小心

进入读图时代之后,人们对于数据的解释方式非常偏爱使用图形来进行表示。而且相比传统的柱状图或者饼状图,更倾向于用实物图来说明问题。比如要说明赚钱多少,可能用钱袋大小来表示。

从表面看,这样具有趣味性的表达方式更容易吸引眼球,抓住公众的视线兼具趣味性。但事实上经常容易犯的一个错误是误把直径当面积。以前文提到的钱袋为例,以柱状图表示的话只是后者是前者高度的两倍。但是钱袋因为其形状的关系,虽然起作用的参数只是其高度,却会因为其面积看起来比实际情况高了好几倍。

张忠元提醒说,另外一个图形上经常会起误导作用的就是地图。“地图的坑儿很深。”以苏格兰要求脱英的一张地图,绿色区域反对脱英,红色区域支持脱英。就地图上的红、绿面积比来看,绿色区域几乎占据80%甚至90%,但是最终还是红色区域的一小部分决定了投票结果。

“为什么呢?是因为人口密度不均匀。大部分集中在城市。红色人口密度高。面积小,但是人口多。”

“画地图、看地图都要非常小心。地图上绝对不能画绝对数,要画相对数,不然没什么意义。”

日常生活中常见的另外一个统计学陷阱,是用个案来说明问题。曾经有一幅漫画被用来说明这个问题。画中一名记者问一位112岁的老妇,什么是她长寿的秘诀。她回答说是抽烟和喝酒。记者非常兴奋地告诉观众,长寿的秘诀竟然是抽烟喝酒!当记者自己点上烟拿起酒的时候,老妇补充说:“等一下,我也知道很多跟我一样抽烟喝酒的人现在都已经死了……”

颇具讽刺意味的小漫画要提醒大家的一个重要事实就是:莫把个案当真理。

张忠元解释说,个案不能说明问题的原因有很多,最主要的一点是缺乏对照组。

 

重视科学共同体意见

那么,究竟哪些根据统计学给出的生活意见才是靠谱的呢?

张忠元给出的建议是,要尽可能参照科学共同体得出的意见。比如健康方面的问题,那可能要参考世界卫生组织的意见;育儿方面的问题,可以参考儿科学会的意见。

他解释说:“即使是发表在著名期刊上的论文,也可能存在问题,同行会提出很多疑问。但是要让科学共同体达成共识是很难的,科学家们所做出的结果要接受科学家同行近乎苛刻的审视。科学共同体的立场和观点是我们能想到的最可靠的依据。”

 

更多精彩内容,敬请关注科学原理一点通官方微信公众平台(ID:kxylydt)

 

数据≠事实,当心统计陷阱

图文简介

随着大数据在各行各业的“深加工”,“看数说话”和“看图说话”正在变得越来越普遍。说到日常生活中经常遇到的统计学先陷阱,张忠元表示,大家首先要刻在脑子里的一个观念就是“相关不等于因果”。