女士品茶的实验、假设和检验

R. A. Fisher 的名著《实验设计；第八版，1971年》第二部分有十六页，仅仅讲了一个最简单的实验：女士品茶。这个故事非常有名，以至于 Salsburg 的统计学通俗读物就以它命名：《女士品茶：20世纪统计怎样变革了科学》。

先回顾一下这个故事。在英国的 Rothamsted 实验站，Fisher 给一位名叫 Muriel Bristol 的女士倒了一杯茶，但是 Bristol 表示，自己更喜欢先将牛奶倒入杯中，再倒入茶。这位女士号称能够分辨先倒茶和先倒牛奶的区别。作为实验设计的鼻祖，Fisher 当然想用实验检验一下：这位女士的味觉是否有这么敏锐？Fisher 倒了 8 杯奶茶：其中 4 杯“先奶后茶”，其余 4 杯“先茶后奶”。随机打乱次序后，Fisher 请 Bristol 品尝，并选出“先奶后茶”的 4 杯，看她是否能分辨奶和茶的顺序。下面的 $2 \times 2$ 表格大致描述了这个问题，其中 $k$ 是 Bristol 选对的“先奶后茶”的杯数。

	Bristol “先奶后茶”	Bristol “先茶后奶”	总数
Fisher “先奶后茶”	$k$	$4-k$	$4$
Fisher “先茶后奶”	$4-k$	$k$	$4$
总数	$4$	$4$	$8$

抛开严格的数学，先做一些直观的计算。也许 Bristol 并没有任何分辨能力，仅凭运气，她也可能全部答对。随机地从 8 杯中选 4 杯“先奶后茶”，可能完全正确 ( $k = 4$ )；不过这个事件的概率是

$$\frac{1}{8 \choose{4}} = \frac{1}{70} = 0.014$$

这是一个小概率事件，概率小于 0.05 （通常的统计显著性水平）。所以，若是 Bristol 全部答对，那么她“没有任何分辨能力”这个假设就和数据不太相容，可以拒绝这个假设。也许 Bristol 运气不够好，错选了 1 杯“先奶后茶”（ $k = 3$ ），这个事件的概率是

$$\frac{{4\choose 3} {4 \choose 1}}{8 \choose 4} = \frac{16}{70} = 0.229$$

这并不算一个小概率事件，即使 Bristol 全凭运气蒙对 3 杯“先奶后茶”也无甚稀奇。

从上面的简单计算看，只有当 Bristol 完全答对的时候，我们才拒绝她“没有任何分辨顺序的能力”这个假设，承认她有分辨能力。

历史上的结果是什么呢？Bristol 完全答对。

上面的组合数来自哪里？在 $2 \times 2$ 的表格中，行列和都固定， $k$ 服从超几何分布，所以上面两个式子无非是超几何分布取 4 和 3 的值。这是通常教科书对“女士品茶”的解释。

但是超几何分布又从哪里来呢？再想想这个例子的不平凡之处：

实验只有一个样本，且不是随机抽取的。
即使我们认为 Bristol 品尝 8 次是 8 个样本，这些样本都是相关的。
更严重的是，前面几杯可能会影响后面几杯的口感，也许会有滞后作用。

这些问题并不是很容易回答。下面是对“女士品茶”实验的一个严格解释。

这里的实验是什么？实验者可以控制的，就是 8 杯奶茶的顺序，完全随机打乱，一共有 ${8\choose 4} = 70$ 种可能性。用 $z = (z_1,...,z_8)$ 表示这个顺序，其中 4 个分量“先茶后奶”，另外 4 个分量“先奶后茶”。考虑如下的实验：在每一个 $z$ 下，Bristol 给出她对 8 杯茶的鉴定结果 $y(z) = (y_1(z),...,y_8(z))$ ，其中 4 个分量“先茶后奶”，另外 4 个分量“先奶后茶”；每一个 $z$ 对应一个向量结果 $y(z)$ ； $z$ 有 70 种可能，因此 $y(z)$ 最多也有 70 种可能。这些 $y(z)$ 都是固定的数，它们在实验前就定了。实验者只能随机选取某个顺序 $Z = (Z_1,...,Z_8)$ ，对应的 Bristol 对8 杯茶的鉴定结果是 $y(Z) = (y_1(Z),...,y_8(Z))$ 。

零假设是什么？Fisher 《实验设计》的 II.8 的题目就是 “The null hypothesis”，这里他花了两页，可见这问题不那么显然，我认为这是问题的核心。Fisher 选择了如下的零假设：实验者可以控制的顺序 $z$ 对 Bristol 的判断没有任何影响。数学上就是 $H_0:y(z)$ 不依赖于 $z$ 。因此，Bristol 判定为“先茶后奶”和“先奶后茶”的杯子固定，即 $y(Z) = y$ 是一个固定的向量不随着 $Z$ 而变化，唯一变化的是 $Z$ 本身，在 70 种可能性中随机选一个。这是这个零假设特别的地方。如果不选择这个零假设，那么 $y$ 不固定， $Z$ 和 $y$ 都是随机的，随后的统计推断会很复杂。

现在可以做假设检验了。实验者的 70 种可能的 $Z$ ，也许恰好匹配了 Bristol 的 $y$ ，但这只有 $\frac{1}{70} = 0.014$ 的概率。也许 $Z$ 中只有 6 杯匹配对了 $y$ ，这有 $\frac{16}{70} = 0.229$ 的概率。注意，这里的计算公式和前面的超几何分布一模一样。读者若是不熟悉这种计算，可以用两行 R 代码看看：

y = c(1, 1, 1, 1, 0, 0, 0, 0)
Zpossible = t(combn(8, 4, tabulate, nbins = 8))

第一行是 Bristol 的 $y$ ，经过顺序调整，前 4 杯“先奶后茶”，后 4 杯“先茶后奶”。在零假设下，这个向量固定。第二行是所有可能的 $Z$ ，一共 70 种可能。大家可以简单比较一下，只有一行可以与 $y$ 完全匹配，有 16 行可以和 $y$ 正确匹配 6 杯。和前面的讨论类似，若是选择 0.05 作为显著性水平，那么只有 Bristol 完全答对，我们才能拒绝零假设；否则，无法拒绝。

回到前面的 1、2和3，新的解释是否回答了这些问题呢？新的解释引入了记号 $y(z)$ ，它们是一些固定的数，于是我们不关心是否有随机抽样，样本是否有相关性。从这个记号看，第 8 杯的品尝结果可以受到第1杯是否“先茶后奶”的影响。问题的关键是，Fisher 选择的零假设很特别，即 $z$ 完全不影响 $y(z)$ ，因此 $y$ 在零假设下是个固定的向量。这样一来，整个统计问题的随机性仅仅来自于 $Z$ ，这是实验者随机化产生的，它成了统计推断的基础。《实验设计》全书从此正式展开。

女士品茶的实验、假设和检验

丁鹏

关于作者

丁鹏