首先,这里所指的因果不是道德意义上的,比如做好人能否有好报等,而是理性认识的界限内的因果关系,科学意义上的因果,比如吸烟是否导致肺癌。

因果推断的意义

因果推断的重要性不言而喻,因为只有理解了事物发生的原因,才能够针对原因,施加干预,阻止或延缓其发生。

就像年初热播剧《开端》中那样,男主和女主只有真正找到了萌萌蒙冤是导致爆炸发生的原因,才能够进而查明萌萌死因真相,解开萌萌父母的心结,尝试阻止爆炸的发生。

开端

现实中的例子,我们明白了血管紧张素是致血压升高原因之一,所以能采用血管紧张素抑制剂作为一种降压药来治疗高血压。但这也仅仅是对症治疗,真正的高血压的病因并未阐释清楚。

因果关系应该是张网络或者链条,也即因果网或因果链,一环扣一环。我们仅了解其中"血管紧张素升高→血压升高"这一个下游环节,便可以针对性地对血管紧张素型高血压予以血管紧张素抑制剂作为治疗手段,这是种进步。但仅了解这些还不足以让我们从源头上预防高血压,也即对因治疗。试想如果我们了解了更上游的导致高血压的原因,便能施加干预,就能起到上医治未病,预防疾病的效果。

流行病学就是这样一门与因果推断密切相关的学科,旨在研究人群中疾病与健康状况的分布及其影响因素,并研究和制定防制疾病、促进健康的策略和措施。

因果关系如此重要,也可能正因为如此,寻找因果关系的过程,也即因果推断才异常艰难。究其原因,我认为因果推断主要面临以下两大困境。

因果推断困境

语言的缺乏

不得不承认,在没读Judea Pearl的书之前,我不知道如何表示这样一个简单的论断:即感冒往往导致发烧,而发烧可能感冒,却不是感冒的原因。这个例子是Judea Pearl在书中提到过的。

每一门蒸蒸日上的科学都是在其符号系统的基础上繁荣发展起来的。——奥古斯都·德·摩根(1864)

我对语言的强调也源于一个坚定的信念,即语言会塑造我们的思想。你无法回答一个你提不出来的问题,你也无法提出一个你的语言不能描述的问题。——Judea Pearl The Book of Why

方程

回想自然科学使用的数学语言,用的最多的就是方程。比如欧姆定律、胡克定律,等等。方程是一种等式,知道任意一边可以求解另一边,比如:根据胡克定律,知道了拉力我可以求解弹簧伸长量,反之亦然。

等号是没有方向的,方程抹掉了方向性,而因果是有方向的。因此方程不足以描述因果关系。

条件概率

另一种常用的数学语言是概率,条件概率应该是最可能用于描述因果关系的语言了,因为条件概率涵盖了两个变量。但高中时代学过的条件概率中P(A|B)与P(B|A)是没有明确区分的。这就好比,P(发烧|感冒)与P(感冒|发烧)具有对等的地位,还是体现不出因果的方向性。

我们根据发烧可以推断感冒发生的概率,同样地,我们也可以根据感冒预测发烧发生的概率。但阻止感冒可以避免发烧,反过来却不成立,我们不能通过改变一个人的发烧状态来阻止他感冒。

再往深一点,真正的贝叶斯推断的条件概率公式应该从用证据(evidence,e)来更新我们对假设(Hypothesis,H)的信念的角度来理解。P(H|e)与P(e|H)有种将两个因素予以区分的意味了,然而贝叶斯公式似乎更关心的是左侧的P(H|e),也即由果(e)及因(H)的方面。但我们真正关心的应该是顺着因果方向,也即由因及果的方面,即P(e|H)。因此经典的条件概率还是不足以表示我们所研究的问题。

反事实问题的凸显

什么是反事实

什么是反事实(Counterfactual),举个例子,一个吸烟者得了肺癌。那么我们会问吸烟是导致他得肺癌的原因吗?如果假设该吸烟者不吸烟就不会得肺癌,那么我们有一定的理由相信吸烟是导致他的肺癌的原因。然而不幸的是,我们无法观察到他不吸烟的情形。 吸或者不吸,我们只能观察到事实的情形,另一个不能被实际观察到的假想的情形即为反事实。

当然,抛开反事实不说,个人差异较大,探究因果一般都是在人群层面,概率意义上探究的。

群体层面上,已知一群吸烟者肺癌的发病率为$I_1$,那么我们会问吸烟是导致肺癌的原因吗?注意这里只有一群人,如果假设这群人不吸烟的情形下,它们肺癌发病率为$I_1’$明显低于$I_1$,那么我们有理由相信吸烟可能导致肺癌。同样地,我们还是面临反事实的问题,这群人吸烟或者不吸烟,我们只能观察到情形之一。

研究某某政策的效果和影响时,比如社会学等研究,同样面临这样的问题。你想研究新冠对经济的影响,那得对比没有新冠的情形。

概括起来就是,反事实是我们想要对比的情形,然而我们确观测不到。

如果严格地从反事实的角度考虑,科学研究就无法进行了。科学就是讲证据,讲事实,但反事实永远是无法观测到的。

难道科学的根基就要因此而动摇了吗?当然没有。

反事实与可比性

反事实问题凸显的背面是可比性的缺失。

自然科学的研究也是反事实的,还是以胡克定律为例,我们凭什么说拉力翻倍,伸长量也将翻倍。我们真正想对比的是那样一个世界,是在那个时刻的另一个反事实的世界,在反事实的世界里,拉力是现实世界的两倍,恰好观察到伸长量也是现实世界的两倍。

如果我们执意要坚持反事实的苛责要求,那么只能采用《开端》中不断进入"循环"的方式,或者平行宇宙的方式来进行科学研究了。这是不现实的。

我们没有观察到反事实的世界,但我们却得出了胡克定律的结论,原因在于我们找到了一个认可的对照。

我们再做了一次实验,让拉力翻倍,并认为这次实验能够近似代表当初想像的反事实的世界,加以比较,得出的胡克定律。

用新一次的实验来近似反事实情形的合理性在于,这个实验时间跨度短,我们可以认为前后两次实验,除了拉力翻倍以外,其余的各种可能影响试验结果的因素仍是不变的(比如说弹簧的劲度系数k)。

试想如果存在一种可能: 拉弹簧的次数会改变的弹簧的弹力系数k,又将会对试验造成何种影响?

所以,反事实并不是什么新奇的事,自然科学的实验同样是反事实的,但是往往能找到认可的对照来近似反事实的情形。但在流行病学和社会科学中,我们往往找不到合适的对照。

在吸烟的例子中,我们另外找了一群不吸烟的人作为对照,用以和吸烟的人群对比,其实就是将吸烟组作为不吸烟组反事实情形的近似,将不吸烟组作为吸烟组反事实情形的近似,探究吸烟是否是导致肺癌的原因。但吸烟组和不吸烟组除了吸烟状况以外的各种因素真的均衡可比吗? 会不会吸烟组中携带有某个肺癌易感基因的人的比例更多一些?

从实验设计角度看,能够保证吸烟组和不吸烟组均衡可比的唯一方法就是做随机对照试验(Randomized Controlled Trial,RCT),找到不吸烟且未发生肺癌的的一群人,随机分为两组,让一组人吸烟,另一组不吸烟,然后观察肺癌的发生情况。无论是从伦理的角度,还是实施的角度,进行这样的随机试验都是不现实的。

如果说,在吸烟这个例子中,我们尚存在进行随机对照试验的可能。那么当我们想研究"新冠对经济的影响时",这样的可能性也不存在了,除非我们能扭转历史,让新冠没有发生。

从弹簧的伸缩(物体)、到吸烟行为与肺癌的关系(人),再到新冠对经济的影响(人所处的环境),我们研究的对象所处的时间和空间尺度都在逐渐增大,与之伴随的就是可操作性的降低。我们找到合适的对照情形的难度越来越大。自然科学中我们可以做实验(实验的前提应该是可比的),也就是我们能够找到,或者人为创造让可比性基本成立的条件。而在流行病学或社会科学中,我们往往只能看,也就是观察性研究(除RCT外,流行病学研究几乎都是观察性的)。观察性研究无法保证可比性。

流行病学研究中,从暴露(吸烟)到结局(肺癌)的时间跨度长,即使进行了RCT,试验期间种种因素都可能对两组人群在分组之后的可比性造成威胁,更何况进行RCT往往不现实,我们只能观察,这也就意味着吸烟的人群和不吸烟的人群可能本来就不可比,在不可比的情形下,又如何能将两组人群肺癌发生率的差异归因于是否吸烟这一因素上呢?

综上,语言的缺乏和反事实问题的凸显(可比性的缺失) 是因果推断面临的两大困境。

因果革命

相关不等于因果的观念早已深入人心。但我们关心的始终是因果的,因果关系是更牢固的,相关只不过是我们探究因果的手段而已。

因果长期被视为统计学的禁忌,也难怪长期以来没有形成描述因果关系的数学语言。

幸运的是,近30余年,因果推断迎来了新的机遇。统计学家Donald Rubin提出了潜在结果模型(Potential Outcome Model)。图灵奖获得者Judea Pearl提出了结构因果模型(Structual Causal Model,SCM)。Rubin的潜在结果模型我了解不多。但读Judea Pearl的书确实解答了我很多的疑惑,例如:辛普森悖论问题,流行病中的混杂到底是什么,如何控制混杂,虚假关联,相关与因果的关系,seeing,doing与imaging的区别,充分因与必要因等等。

Directed Acyclic Graph(有向无环图)的引入使我们能够用图形的方法表示我们的研究假设(因果模型),Directed代表有方向的,这是适合因果关系的语言。Do-calculus(do运算符)的引入让我们能够想象反事实的假想世界,在其中进行模拟干预,评估效果。因果识别(Causal Identification)理论,能够指导我们在观察性研究中,判断因果效应是否可识别,如果可识别,又该调整哪些变量才能得到想要的因果效应估计量等等。

读完Judea Pearl的书后,我至少能够表示"感冒能导致发烧,发烧却不是感冒原因"这样的命题了。

按照我目前对SCM理论的理解,上述命题应该可以这样表示:

P(感冒|do(发烧))=P(感冒),但P(发烧|do(感冒))≠P(发烧)。

很多人称这场变革为"因果革命"。

就刷新认知的意义上,于我而言,它的确值得"革命"这个词。

本文表述可能不够准确,一方面笔者表达能力有限,另一方面因果关系确实有点微妙,读者请见谅,如果你也对因果推断感兴趣,欢迎在留言区一起讨论。

发表/查看评论