著名美国作家马克·吐温(Mark Twain,1835年—1910年)有一句名言:“谎言有三种,谎言、该死的谎言和统计学”(他说这句话出自一位政治家)。当然,那是在一百多年前了。今天统计学已经成为自然科学、医学、工程学、社会科学、各行各业乃至我们生活中必不可少的工具。明天下雨的机会、交通拥堵的概率、食品的平均价格…...这些信息都离不开统计学。
在和两篇文章中介绍了统计学中的一些基本概念,包括概率、均值、方差、敏感度和特异度,本文将介绍相关与因果。
“相关”与“因果”是两个至关重要但经常被混淆的概念,时常会引起粗心的误解或恶意的谎言,使统计学蒙上阴影。
什么是相关?
相关(correlation)是指两个变量之间存在某种联系,即当一个变量发生变化时,另一个变量也会随之变化。相关可以是正相关(两个变量同时增加或减少),例如天气越热,冰淇淋销售越多;或负相关(一个变量增加,另一个变量减少),例如雨下得越大,出门的人越少。
什么是因果?
因果(causation)是指一个变量的变化直接导致了另一个变量的变化。要证明因果关系,需要严谨的方法。
相关作为统计学中的核心概念,最早是英国科学家弗朗西斯·高尔顿(Francis Galton, 1822年—1911年)提出的(图1)。高尔顿是达尔文(Charles Darwin,1809年—1882年)的表弟。年轻时他先去了伦敦大学学医,但不久就转到剑桥大学读数学。他喜欢探险,他的父亲过世后给他留下了一大笔遗产。他籍此遨游非洲大陆,回到伦敦后出版了好几本书,因此声名鹊起,入选为皇家学会院士。1853年他成了家,并从此沉心于科学研究,在气象学、人类学、心理学、遗传学和统计学等多个领域都有建树。
图1,弗朗西斯·高尔顿
在气象学方面,高尔顿发明了气象图。他用等气压线绘制天气图,揭示了气压与天气之间的关系。这一方法沿用至今。
在人类学方面,他首先提出每个人都会有特别的指纹,因此可以用作个人身份认证和刑事侦讯。今天我们的手机里都有指纹辨识的软件。
在心理学方面,他首先设计了标准化问卷的方法,这一方法是社会调查的基本工具。高尔顿比达尔文小13岁,深受达尔文进化论的影响。他研究遗传学,认为身高、体重与心智等特征都是由遗传决定的。因此,根据优胜劣汰的法则,他提出了优生学 (eugenics),主张要用选择性育种的方法改良人类,以减少疾病和提升智力。不幸的是这一思想最后恶变为纳粹主义(“纳粹”(Nazi)是德语“民族社会主义”(Nationalsozialistische)一词的缩写),种族清洗,给世界带来灾难。
高尔顿是统计学的创始人。他重视数据的准确性,首次用散点图和数学方法来分析变量间关系,并提出了“相关”“回归”“标准差”等概念。这些概念后来由他的学生卡尔·皮尔逊(Karl Pearson,1857年—1936年)进一步完善。
在一文中提到过皮尔逊。皮尔逊出生在伦敦。他的父亲是皇室的法律顾问。他自小成绩优异,在剑桥大学读书时曾获得数学竞赛奖。他毕业后获得奖学金去德国进修,学习哲学、法律与文学。学成回到伦敦后,他考取了执业律师资格,但很快就放弃了律师生涯。他结识了卡尔·马克思(Karl Marx, 1818年—1883年),并提出要把马克思的《资本论》翻译成英文。1884年,他开始在伦敦大学任教并在那里组建了世界上第一个统计学系。后来又建立了生物统计实验室(biometric laboratory)。皮尔逊深受高尔顿的影响(图2)。他把高尔顿的统计学思想用数学的方法表达出来并且提出了线性回归(linear regression)、 卡方分布( χ2distribution)及极大似然(maximum likelihood)等重要方法,使得统计学成为一个学科。他像高尔顿一样,热心于优生学。晚年,他任以高尔顿冠名的讲座教授,大力推动统计学及生物统计学的工作,直至生命的最后一刻。
图2,皮尔逊(左)与高尔顿(右)
皮尔逊定义的相关系数(Pearson's correlation coefficient)如下:假定变量X的观测值为(x1,x2......xn),变量Y的观测值为(y1,y2......yn),那么两个变量的相关系数为:
相关系数是一个1到-1之间的数。1意为百分之百正相关,0为不相关,-1为百分之百负相关。一般来说,当相关系数大于0.75(或小于-0.75)时,可以认为两个变量是相关的。相关系数的计算有些繁复,不过许多软件(如MS Excel)都有计算相关系数的功能,输入数据就能直接计算出。不过大语言模型(如ChatGPT,DeepSeek)却算不好。
相关系数虽然能描述两个变量(事件)的相关程度,但会有两个问题:
第一,它不能全面地表示数据特征。1973年,英裔美国统计学家统计学、耶鲁大学教授弗朗西斯·安斯库姆(Francis Anscombe,1918年—2001年)给出了四组数据(图3),叫做“安斯库姆四重奏”。这些数据组的相关系数(r=0.82)、线性回归方程都一样,但数据的分布完全不同。因此在使用相关系数时还要把数据画出来,仔细检查。
图3,“安斯库姆四重奏”的散点图及线性回归曲线,其中μ是均值,σ是方差,r是相关系数,红线是线性回归曲线
第二,相关不等于因果。例如,数据显示人们在冬季购买感冒药较多,同时交电费也较多。这两个事件似乎存在相关性,但显然购买感冒药并不会导致电费上升。实际上两者的共同影响因素是天气变冷,因此人们更容易感冒,也需要用更多的电。这样的例子有很多。
关于因果的研究可以追溯到古代的亚里士多德。到了启蒙近代(17世纪末18世纪末),苏格兰哲学家、怀疑论的鼻祖大卫·休谟(David Hume,1711年—1776年)对因果关系做了深入探讨。他认为人们只能感知事件的相续发生,对因果的信念只是经验,而非理性。先验论的创始人伊曼努尔·康德(Immanuel Kant,1724年—1804年)则认为因果不是客观世界的性质,而只是主观感觉。
皮尔逊研究过哲学,熟悉休谟与康德的理论。他强调相关与因果的不同,但未能给出解决方案。
在过去的一个世纪中,科学取得了巨大的进步,对因果的认知也提出了许多新的挑战。相对论告诉我们时间与空间是相对的。量子力学告诉我们事物会以概率的形式出现,而非必然。
统计学也不断进步,目前已经给出了好几个认证因果的方法,包括:
统计相关性法
用相关系数及散点图等工具证明事件A(例如吸烟)与事件B(患肺癌)之间存在显著相关性。如上所述,这是因果关系的必要条件,但不是充分条件。
时间顺序法
事件A必须在事件B之前发生,才有可能是事件B的原因。例如,吸烟(事件A)后患肺癌(事件B),而不是患肺癌后才开始吸烟。
排除法
控制其他可能影响因果关系的因素。例如,空气污染水平(事件C)可能会影响肺癌发病率(事件B),因此在计算吸烟(事件A)对肺癌发病率(事件B)的影响时要排除空气污染(事件C)的影响。
反事实法
如果事件A没发生,事件B也不会发生,则事件A是事件B的原因。例如不吸烟(包括二手烟),肺癌发病率就会下降。
干预法
如果人为地改变事件A,会不会影响事件B?例如戒烟能不能降低肺癌发病率?
单盲法
又称随机对照法。这一方法源自医学界,医生将受试者分为实验组(服用药物,事件A)和对照组(服用安慰剂,事件),观察服药(或安慰剂)后两个组的健康状况(事件B)差异。如果实验组的病情改善显著高于对照组,则可以推断药物(事件A)具有治疗效果(事件B)。
双盲(double-blind)法
与单盲法相似,但医生不知道受试者的分组,因此评价疗效更加客观。目前,这种方法已经成为医学界研发新药及新治疗方法的金标准。
三盲法
针对某些领域,因操作限制(如外科手术)难以实现双盲,因此请相关领域的专家(第三方)评价疗效。
因果推断是实证科学不可或缺的基石。 近年来人工智能技术飞速发展。因果推断愈发重要,也愈发困难。涉及的变量(事件)数以千算,涉及的数据更是数以万计,甚至百万计。要在数千个变量中找到复杂的因果关系,从数百万个数据来推断“为什么”,是当前人工智能技术的主要研究方向之一。在这个领域中的领跑者之一是美国科学家、加州大学洛杉矶分校教授裘德亚·伯尔(Judea Pearl,1936年—)(图4)。
他提出贝叶斯网络的方法:用网络描述因果关系,用贝叶斯方法从数据中计算出因果关系的概率。因此他荣获2011年图灵奖。他有著作:《为什么?关于因果关系的新科学》(The Book of Why, the New Science of Cause and Effect)。有兴趣的读者可以一读。另外,因果推断的开源软件在Github网站及微软公司的“Do Why”中可以找到。
图4,裘德亚·伯尔
撰文:杜如虚(加拿大工程院院士)
声明:本文内容仅代表专家个人观点,供学习参考返回搜狐,查看更多