在充满随机性的统计世界中,悖论无处不在。这一节介绍一个很有名,但是在中文统计教科书中几乎从未介绍过的悖论。这个悖论是 Educational Testing Service (ETS) 的统计学家 Frederic Lord 于 1967 年提出来的;最终由同在 ETS 工作的另外两位统计学家 Paul Holland 和 Donald Rubin 于 1982 年圆满地找出了这个悖论的根源。这部分先介绍这个悖论,再介绍 Holland 和 Rubin 的解释,最后是一些结论。

一 Lord’s Paradox

考虑下面一个简单例子,具体的数字是伪造的。某个学校想研究食堂对于学生体重是否有差异性的影响,尤其关心食堂对于男女学生体重影响是否相同。于是统计学家们收集了如下的数据:学生的性别$G$;学生在 1963 年 6 月入学时候的体重$X$;学生在1964年6月放暑假时候的体重$Y$

第一个统计学家,采取了一种很简单的方法。如图所示,横轴表示1963年6月入学前的体重$X$,纵轴表示1964年6月前放假的体重$Y$。个体上来看,男女入学前和入学后一年体重都会有些变化,男女学生体重的散点图分别用绿色和红色标出。从男女学生生平均体重来看,男生入学前后一年平均体重均是150磅(图中右上角的黑点),女生入学前后一年平均体重均为130磅(图中左下角的黑点)。图中的虚线是对角线 $Y=X$,两个黑点均位于对角线上。因此,第一个统计学家的结论是食堂对于男女学生体重都没有影响,因此对男女学生体重的作用相同。

LordPlot

(图注:横轴表示1963年6月入学前的体重$X$,纵轴表示1964年6月前放假的体重$Y$;虚线是对角线$Y=X$;男女学生体重的散点图分别用绿色和红色标出。图中数据生成机制如下:男学生$(X,Y)\sim$二元正态分布,均值$(150,150)$,协方差矩阵$\begin{pmatrix} 60 & 40 \\ 40 & 60 \end{pmatrix}$;女学生$(X,Y)\sim$二元正态分布,均值$(130,130)$,协方差矩阵$\begin{pmatrix} 60 & 40 \\ 40 & 60 \end{pmatrix}$。生成这幅图的 R 代码可以在这里下载:Rcode。由于样本量3000,样本均值非常接近理论均值,因此落在了对角线上。)

第二个统计学家,由于受到了高等的统计训练,知道 R A Fisher 的 Analysis of Covariance (ANCOVA) ,提出了更加复杂的方法。他认为,我们的分析应该控制入学前的体重,做如下的线性回归:

$$ Y_i = \beta_0 + \beta_g G_i + \beta_x X_i + \varepsilon_i. \quad\quad\quad (*) $$

他进一步认为,上面线性回归的系数$\beta_g$反应的就是男女的差别。用最小二乘法拟合上面的回归模型,等价于在男女学生中拟合两条平行的回归直线。如图所示,两条直线斜率$\beta_x$相同,但是截距不同,截距之差就是回归系数$\widehat{\beta}_g = 6.34$。结论是,食堂对于男女体重有差别性的影响。

这两位统计学家得到了不同的结论,究竟谁对谁错呢?Lord 称这个现象为悖论,那么悖论的根源是什么呢?

二 悖论的根源:因果推断视角下的解释

要想解释这个悖论,使用线性回归模型益处不大,因为究竟能否将回归系数解释成因果作用,是个根本性的问题。在下面的讨论中,我们假定数据的样本量足够大,因而可以忽略小样本带来的随机性;也可以认为整个讨论都在总体上进行。和前面一样,我们用$G_i$表示个体$i$的性别,男性取值为1, 女性取值为0;$X_i$是个体 $i$在 1963 年 9 月的体重。由于这两个变量都发生在接受处理(在食堂进餐与否)之前,它们都可以看成是协变量,不受处理的影响。我们采用潜在结果模型,定义 $\{ Y_i(1), Y_i(0) \} $是个体 $i$ 在食堂进餐和不在食堂进餐下于 1964 年六月体重的潜在结果。

如果用$T$表示在食堂进餐与否的变量,那么每个学生都是$T=1$。当写下潜在结果之后,我们就发现问题的根源之一,是整个研究根本不存在对照组(全体学生其实都在食堂进餐),每个个体在 1964 年 6 月都取值$Y(1)$(也就是前面的记号$Y$)。

继续我们的讨论。男女学生的平均因果作用分别定义为:

$$ \Delta_g = E\{ Y(1) – Y(0) \mid G = g \}, g=1, 0; $$

食堂对于男女学生体重平均因果作用的差是:

$$ \begin{eqnarray} \Delta &=& \Delta_1 – \Delta_0\\ &=& E\{ Y(1) – Y(0) \mid G = 1 \} – E\{ Y(1) – Y(0) \mid G = 0 \}\\ &=& \left[ E\{ Y(1) \mid G = 1 \} – E\{ Y(1) \mid G = 0 \} \right] \\ && – \left[ E\{ Y(0) \mid G = 1 \} – E\{ Y(0) \mid G = 0 \} \right]. \end{eqnarray} $$

上面的推导虽然简单,但是将$\Delta$分成了两个显著不同的部分:第一个方括号内的项是我们能够从观测数据中得到的;第二个方括号中的项是我们不可观测的,因为没有任何一个学生接受了食堂之外的处理。

如果我们假定$Y(0) = X$,也就是说如果学生不来食堂进餐,他们的体重将和入学前一样,那么

$$ \Delta_g = E\{ Y(1) – X\mid G = g \} = E(Y-X\mid G=g). $$

根据上面的图和统计学家一的推理逻辑,我们知道$\Delta_g = 0 (g=0,1)$(男女学生的体重不受处理影响),那么$\Delta = 0$(处理对于男女体重没有差异性的影响)。在这个假定下,第一个统计学家的断言是正确的。

显然,假定$Y(0) = X$是无法被数据证明或者证伪的,它只能依赖于我们的先验知识。那么在什么假定下,第二个统计学家又是对的呢?

根据第二个统计学家做 ANCOVA 的逻辑,他可以假定

$$ E\{ Y(1)\mid X, G= g \} = a_g + bX, $$

并且把$\delta = a_1 – a_0$当成食堂对于男女体重差异作用的度量。$\delta$其实就是上面的线性回归模型$(*)$的回归系数$\beta_g$。如果我们假定 $Y(0) = \alpha + b X$,那么不去食堂进餐时的潜在体重$Y(0)$是入学前体重$X$的线性函数且截距是$b$;这表明$Y(1)$$Y(0)$关于$X$的模型,仅仅截距不同,斜率相同。这个假定并非不可能。此时,

$$ \begin{eqnarray} \Delta &=& E\{ Y(1) – Y(0) \mid G=1\} – E\{ Y(1) – Y(0)\mid G=0\} \\ &=& E\{ Y(1) – \alpha – bX \mid G=1\} – E\{ Y(1) – \alpha – bX\mid G=0\} \\ &=& \left[ E\{ Y(1) \mid G=1\} – b E(X\mid G=1) \right] \\ &&- \left[ E\{ Y(1)\mid G=0\} – b E(X\mid G=0) \right]\\ &=& a_1 – a_0 = \delta. \end{eqnarray} $$

最后一行等于$\delta$,因为根据条件期望的性质,方括号中的两项分别是$a_1$$a_0$

$$ \begin{eqnarray} && E\{ Y(1) \mid G=g\} – b E(X\mid G=g) \\ &=& E\left[ E\{ Y(1) \mid X, G=g\} \mid G=g\right] – b E(X\mid G=g) \\ &=& E\left[ a_g + bX \mid G=g\right] – b E(X\mid G=g) \\ &=& a_g. \end{eqnarray} $$

这样一来,第二个统计学家的结论就是正确的。

三 结论

根据上面的讨论,关于 Lord’s Paradox,我们有如下的结论:

(1)Lord’s Paradox 的根源在于,整个研究没有对照组;我们甚至不知道什么是对照组,不在食堂进餐,是在家里进餐,还是外面的参观进餐,还是其他?这其实导致 $Y(0)$ 并非完好定义。上面的讨论则是假定$Y(0)$是良好定义的。

(2)回归或者协方差分析等统计工具,并不能清楚的回答因果的问题。这个问题中,$\Delta$是一个我们关心的因果度量,离开潜在结果,是很难定义的。根据上面的讨论,两位统计学家不采用潜在结果模型,甚至没有意识到,这个研究根本的问题在于缺少对照。当然,如果我们能够做一个随机化的实验,有处理和对照组,那么回归分析也可能得到合理的答案。

(3)统计学家一和二,都可以是对的。他们结论的正确性,依赖于不同的假定;而这些假定本身是不可能被检验的。

(4)假定$Y(0)=X$可以减弱到$Y(0)=X+u, E(u)=0, u\perp G$;假定$Y(0)= \alpha + b X$可以减弱到$Y(0) = \alpha + bX + v, E(v) = 0, v\perp G$。当然,这都是细枝末节的问题。

(5)统计学家一和二,都是错的。他们有结论,但是却从未清楚地陈述结论回答的是什么问题。

(6)R A Fisher 在实验设计中提出了 ANCOVA,但是这个方法不是万能的。事实上,这个方法导致的问题,比它带来的功用更严重;这点以后再说。

四 参考文献

(1)Lord FM. A paradox in the interpretation of group comparisons. Psychol Bull. 1967;68:304–5. doi: 10.1037/h0025105.

(2)Holland, P.W., Rubin, D.B. (1983). On Lord’s paradox. In: Wainer, H., Messick, S. (Eds.), Principals of Modern Psychological Measurement. Lawrence Erlbaum Associates, Hillsdale, NJ, pp. 3–25.

发表/查看评论