编辑部按:统计之都访谈第46期为翻译作品。原文作者是Luisa T. Fernholz 和 Stephan Morgenthaler,标题为 A Conversation with John W. Tukey and Elizabeth Tukey,于2000年发表在Statistical Science。译者:陈星宇(华中科技大学数学与统计学院19级数学与应用数学专业在读学生)、徐泓、蔡再利,审校定稿:陈星宇、魏太云、黄俊文。感谢原文作者、译者和审校人员的辛勤付出。Tukey一生纵横驰骋,以其预言家式的前瞻眼光、深邃广博的思想和独具匠心的创造力,预言并引领了数据科学的发展。他在1962年发表的著名文章 The Future of Data Analysis 被认为是“数据科学”诞生的标志;而2022的今年,恰好是数据科学第60个年头——故译本访谈以纪念之。
导读(陈星宇):John W. Tukey,1915-2000,数据科学先驱,20世纪最著名的统计学家之一,快速傅里叶变换(FFT)和箱线图发明人,单词“比特(bit)、软件(software)”的创造人,美国国家科学奖章获得者,美国国家科学院院士,IEEE荣誉奖章获得者。这些标签或许可以概括Tukey,但是阅读本文后你会觉得如此概括未免失之浅薄。Tukey的研究涉猎甚广,导弹模型的设计,大气数据的分析,选举预测的技术……似乎包罗万象。他对统计学发展方向的看法,他对探索性数据分析的大力推动,他非凡的教育和成长经历,他与香农、费曼、图灵等学界大咖的交往趣事,他广泛的社会活动和研究,在本文中均可见一斑。
图1:John·Tukey,日期和地点不详。
摘要
John Wilder Tukey是普林斯顿大学荣休的Donner科学教授。他于1915年6月16日出生于马萨诸塞州的新贝德福德(New Bedford),1936年和1937年分别获得布朗大学化学学士和硕士学位。1939年,他以数学博士身份在普林斯顿大学开始了职业生涯。没过多久,他就被任命为Henry B. Fine数学讲师。十年之后,35岁的他晋升为正教授。自1956年普林斯顿大学统计研究组成立以来,他一直担任负责人。1965年统计系成立时,他被任命为首任系主任,直到1970年卸任。他于1976年被任命为Donner讲席教授,并一直待在普林斯顿,直到1985年荣休。此外,自1945年起他还是贝尔实验室的技术人员,1958年晋升为通信原理助理研究主任,1961年晋升为信息科学副执行主任,一直任职到1985年退休。
在第二次世界大战期间,他参与了弗兰克福德(Frankford)军工厂消防设计部普林斯顿分部的项目,这次战时服役,标志着他与政府委员会和相关机构保持密切、持续联系的开端。除此以外,他也是出席1959年日内瓦停止核武器试验会议的美国代表团成员。1960年至1964年,他任职于总统科学咨询委员会,并且是约翰逊总统的环境污染工作组和尼克松总统的空气污染工作组成员。Tukey获得了一系列的奖项和荣誉,其中包括美国统计协会的S. S. Wilks奖章(1965年)、美国国家科学奖章(1973年)、IEEE荣誉奖章(1982年)、美国质量控制学会戴明奖章(1983年)和美国教育考试服务中心奖项(1990年)。他拥有凯斯理工学院、芝加哥大学和布朗大学、坦普尔大学、耶鲁大学和滑铁卢大学的荣誉学位。1998年6月,他被普林斯顿大学授予荣誉学位。他开创了探索性数据分析(EDA,exploratory data analysis)和稳健估计领域的研究。他对时间序列的频谱分析和数字信号过程等其他方面的贡献已广泛应用于工程和科学领域,他与一位数学家同事合作发现了快速傅里叶变换(FFT)算法。他编写了《探索性数据分析》(Exploratory Data Analysis)和八卷本论文集The Collected Works of John W. Tukey,并合著书籍数本,为众多领域做出了贡献。他成功地指导了50多名研究生获得了博士学位,并启发了他们的职业生涯。他的学生详细名单及完整简历可以在The Practice of Data Analysis(1997)中找到,该书由普林斯顿大学出版社出版,D. Brillinger、L. Fernholz和S. Morgenthaler编辑。
John W. Tukey于1950年与Elizabeth Louise Rapp结婚。婚前,Elizabeth是新泽西州普林斯顿市教育考试服务处(ETS)的人事主管。
1997年6月25日,Luisa Fernholz和Stephan Morgenthaler在John W. Tukey和Elizabeth Tukey的新泽西州普林斯顿家中,对他们进行了一次访谈。谈话内容涉及John光辉的职业生涯和独特的个性等方面。另外一个访谈发表在The Practice of Data Analysis(Brillinger、Fernholz和Morgenthaler,1997)中,这是1995年6月20日,在普林斯顿大学举行的庆祝John 80岁生日的两日研讨会上录制的。那次研讨会上还播放了BellCore和美国统计协会于1993年制作的一盘录像带,其中有John和Elizabeth Tukey,与Ram Gnanadesikan和David Hoaglin的对话,从统计到更广泛的内容,他们讨论了许多话题,其中包含了许多个人见解。本次访谈旨在对前两次访谈做一个补充。
Elizabeth Tukey一直是John生活中的驱动力,她提供的评论和趣闻补充了他的陈述,增添了一些个人色彩。她已读过并同意发表这次谈话。不幸的是,Elizabeth于1998年1月6日去世。这篇文章也是对她的纪念。
在接下来的对话中,Luisa Fernholz和Stephan Morgenthaler提出的问题以“Q:”表示。John W. Tukey的回答用“John:”表示,Elizabeth Tukey的回答用“Elizabeth:”表示。
图2:John和Elizabeth Tukey在他们结婚的那天。
统计学
Q:谈谈你对统计的看法,你的看法似乎与你年轻时候(学界)的主流看法相反。我的印象是,主流观点实际上是Fisher学派的(译者注:Ronald Fisher,1890~1962,英国统计学家、遗传学家,现代统计科学的奠基人之一),你有一个概率模型,其中包含待估计和检验的参数。而你提倡更仔细地观察数据,并让数据指导你的工作。
John:我不确定早期发生了什么。我的第一篇准统计论文是概率论相关的。它是关于随机变量的分数部分的文章(译者注:1938, On the distribution of the fractional part of a statistical variable)。在统计方面,我阅读量很大,我读了布朗大学数学图书馆里很多书。我只是阅读但并不研究它们。让我拿一份参考书目(从书架上拿了一份参考书目)。我的第一篇统计学论文是Scheffé and Tukey(译者注:1944, A Formula for Sample Sizes for Population Tolerance Limits)。这是一篇关于总体容忍限(population tolerance limits)的简短说明。那时候,我的教育是在研究战争问题中得到的,其中大部分时间是和Charlie Winsor共事(译者注:Charlie Winsor,1895-1951,美国著名统计学家,一个广为人知的工作是发明了统计学中的葡萄酒分类方法,现在以他的名字命名)。因此,我们很自然地将统计学视为某种基于数据来寻找用途的东西———也许不是直接地,不过最多只隔一步。现在,虽然我不相信其他有实际经验的人不是这种观点,但我想说,他们肯定没有成功地宣传这种观点。我想应该把二十世纪40年代后期作为开始时期,确切地说是从1944年开始。我不知道人们一般是怎么想的,但我知道Charlie Winsor是怎么想的,这很容易发现。(我对Sam Wilks的想法也有一些了解,他的想法是完全不同的。)Charlie有着非常简短的工程背景,以及更长的与Raymond Pearl合作的背景。他们合作的领域现在可以称之为生物统计(biometrics / biostatistics),但没有那么正式。因此,对于Charlie来说,处理数据是很自然的事情。
Q:完全不考虑样本总体的参数?
John:不。不,不,不!我正试着回想过去。不,因为从某种意义上说,反例是Hastings, Mosteller, Tukey和Winsor在1947年发表的论文《小样本的低阶矩:顺序统计量的比较研究》(译者注:1947, Low moments for small samples: a comparative study of order statistics)。这是一个(用于计算推断目标的)顺序统计量的低阶矩的工作,但不限于高斯分布,我们也有均匀分布和一个有合理尾部的分布。如果你讨厌样本总体参数,你就不会参与其中。Charlie Winsor也参与了这项工作,他不只是挂名。
Q:你会说你阅读了大部分发表的文献吗?它出来的时候,你会读吗?
John:我不知道。也许更重要的是,我读了JRSS-B系列,那时被称为Supplement to the Journal of the Royal Statistical Society。我从第一卷开始,阅读,而不是学习。我通读了Biometrika,所以我对40年来人们在做什么或已经做了什么,有了一个相当好的感觉。
Q:有趣的是,这两份都是英国出版物。那么,你是英国意义上的统计学家吗?是美国人引入了更偏理论的东西吗?
John:不,不一定。例如,John Wishart完全是数学型的,而不是以数据为导向的。我想我从来没有像一些人认为的那样担心,“这些人到底在干什么”。
译者注:20世纪前半叶统计学研究的中心在英国,以Karl Pearson(1857~1936),Ronald Fisher(1890~1962)为代表,他们更强调统计学的应用性,在置信区间和假设检验方面做出重要工作的统计学家Jerzy Neyman(1894~1981)1938年前往美国伯克利加利福尼大学开展统计学研究,他们强调了统计学中数学严格性的问题。
Q:谈到这些更加面向数据的方法,让我感到惊讶的是,为什么非参数方法(我认为也是在那个时候出现的)没有产生更大的影响。人们没有说:“这是我们必须要做的事情。”
John:嗯,就是如此。具体历史我记得不是很清楚,但其中一些事情可能要追溯到第一次世界大战前,主要是社会科学领域的零星事件。而对于一个即将成为活跃领域的事物有两个重要的要求,这些要求在不同的时间和地点有不同的强度。一是它必须看起来足够数学化,以避免来自数学同事们的批评。二是必须有足够的论文问题来维持活跃度。就我而言,我想再加上第三点,它应当适时地对数据分析产生有用的影响。我想前两种观点有个推论:如果它看起来是一个连贯的思想体系,有共同的原则等等,那么会是个有力的加分项。
Fisher有一篇论文,我临时引用的可能不会很准确(Fisher, 1929, Statistics and Biological Research),他在论文中的基本意思是,“显然不可能有一套统计推断技术,可以用于不同的假设,即分别对应于每种不同的样本总体”。在50年后的现在,这话可能仍然是正确的。但我想我们现在认识到从今以后这不一定是对的。我想说在特定的应用中,非参数技术有助于保护其侧翼,免受来自其他方向的攻击。如果你有一个传统的最小二乘高斯正态理论之类的东西,那么一个显而易见的攻击就是,数据并不真正地满足高斯分布。如果有人展示出非参数方法的结果也是显著的,那就大大削弱了这种攻击。非参数并不太适合对事物进行精细的分析。如果你有一个仅用中位数就能很好说明问题的情况,那么拥有基于中位数的良好性质是很好的。但是如果你需要进行复杂一点的分析,那么你可能不会像做一些经典的回归之类的事情那样,清楚地知道该往哪里走。我并不是说经典回归就很理想很好,但它通常是一种可以进一步探索的自然的方法。我认为这是阻碍非参数方法的一个因素。另一个是,你会疲于试图证明所有可能的输入。但是,你对这个世界了解够多的话,你就知道你并不真正需要穷尽所有可能的输入。现在,我认为这并没有明确地困扰着人们,但这种方法必须嵌入到你对事物的感知中。
Q:你可以通过构建一个框架来做得更好。
John:你应该能做得更好。也许你当时不知道该怎么做。那时我们还不够稳健(prerobustness)。在以前,你可以辨别出一本数值分析书籍的作者是否真的做过数值分析。这个问题关系到他提到哪个简单的求积公式的,因为其中一些公式比另外一些好用得多。这没有一个定式,但某种程度上它在业内是众所周知的。统计书籍也有类似判断水平高低的标志,那就是强调算术平均的方差而非$S^{2}$的样本分布。其中一个有效,另一个无效。虽然另一个无效这事很少被提到,但不提到它正是人们在认真对待这事的标志。我不知道是什么时候,可能没有那么早。有一次,可能是在国际数理统计学会(IMS)的一次会议上,在讨论一些论文,我和Harold Hotelling也参加了讨论。我向Harold提出,检验某个统计技术是否值得被人用,就是在实践中它是否真的被人用了。Harold站起来说他从没想到过这事。我认为就你喜欢认识任何东西而言,你必须理解Charlie Winsor,他是以数据为导向的。我清楚地记得,当路过老费恩厅(译者注:Fine Hall,普利斯顿数学系)时,听到Charlie说:“好吧,Sam Wilks培养了优秀的数理统计学家,令人惊讶的是,他们很快就成为了优秀的统计学家。”但是,与Charlie在一起,从我们生活中丰富的数据环境中努力发掘出更有意义的东西,导致我以数据为终极导向。
Q:如果人们查看您的传记,就会发现其他原因。作为一个统计学家,您并非科班出身。
John:是的,那时候大多数人都是这样。我想Frank Yates,他原先(在非洲!)是一名调查员。Charlie没有接受过传统的教育。Cochran接受过准传统的教育。我试着回想那些和数据联系紧密而且位置显赫的人。我不知道我所受的广泛的化学和普通物理的教育有多不标准。我参加了一年大学新生的英语课程,我上的其他课程遍布校园各个角落,从地质学到数学、从物理到化学。如果都是化学,可能就不会那么好了。你读过关于科学通才教育的论文吗(Bode、Mosteller、Tukey和Winsor,1949, The Education of a Scientific Generalist)?这在当时似乎是有道理的,但通才教育并没有发生。Dick Link有句格言,统计学家必须是精神分裂症患者,因为他必须处理数学,这是所有事情中最严谨的;而且他还要处理数据,这是最不严谨的。现在,我愿意用数学来创造一些可能不切实际的东西,但我也对那些无论是否有严格证明,人们都能感觉到他们做得很好的技术感兴趣。有一个科幻故事是由一位名叫Katherine Maclean的女士写的,名叫 Incommunicado(译者注:Katherine Maclean(1925-2019),美国科幻作家,Incommunicado或可理解为“与世隔绝” ),故事发生在木星或土星的一颗卫星上。那里一个工作组的一位高级职员所面临的困难是,他是模拟型(analog),而其他人都是数字型(digital)。我想就数据分析而言,也许我是那个有点孤独的模拟型。我希望“感受”一些东西是否真的有用,而不希望通过数学证明来发现这一点。
译者注:模拟型(analog)和数字型(digital)是信号处理中的专业名词,在模拟技术中,信息被转换为不同幅度的电脉冲,而在数字技术中,信息被转换为二进制格式。在早期,连续变化的模拟信号更加贴近自然界事物的原本形态,而数字信号失真程度较高。数学博士出身的Tukey以此类比,来阐述他的数据科学价值取向:为了更加实事求是地描述和分析真实世界,宁愿放弃数学上的严谨和精密;而不反过来。
Q:但你可以理解那些说“靠感觉是不够的”的人。
John:当然可以。感觉是很个人的。我非常强烈地认同Fisher的感觉,尽管他的出发点可能和我非常不同。但是,那些你可以相信他们感觉的人会比那些能搞证明的人要少。因此,反对凭感觉做选择的人是有正当理由的。
Q:在我看来,你能接受的证明某事物有用性的证据也与其他人不同。你似乎并不期待有一个数学证明能将其转化为某种最优的理论。
John:不,因为我知道太多以这种方式构造的东西的异常情况。另一方面,我想我总是愿意将数学结构和数学证明作为故事的一部分,同时期望出现这样的情况,那就是人们不会有一种不知道该怎样理解的感觉。
Q:你创造了“数据分析”这个词吗?还是说它来自更早的年代?
John:它不是一个我会认为很特殊的名词。你得和Steve Stigler或其他人谈谈,看看能否回答这个问题,而不是我。
Q:你有没有就箱线图做过演讲?我这样问是因为我想知道您是否将探索性数据分析(EDA)方法作为一个研究项目。(译者注:箱线图是由John发明的)
John:嗯,我猜我想过把EDA当作一个研究项目。
Q:因为你对它做了很多修补。
John:是的,我修补过一些。EDA的一些内容已经存在了一段时间,另一些内容是在写书的过程中组合起来的。可恶的是,有些东西可能更为复杂,这是做事完美主义者的后遗症。我希望能遇到的情况是,这些技术至少有50%的效率。如果他们有80%的效率,那就太好了。因此,试图尽可能彻底地把东西“挤干”可能有些过头了。我们将会看到EDA的修订版是什么样子的。我们应该记住我一篇论文的标题,这篇论文名为“我们同时需要探索性和验证性”(Tukey, 1980, We need both exploratory and confirmatory)。这并不是说EDA就是故事的全部,但如果你在EDA刚出来时拿到1000本关于统计学的书,会有999本是关于验证性的。因此,当时大力推动EDA(探索性数据分析)是正确、恰当的,这样可以达到和验证性同等地位。而且这种推动现在可能仍然需要。
译者注:一个粗浅理解,拿到数据后,探索性数据分析首先使用可视化、描述统计来充分探索、了解数据,而验证性分析则直接套用假设检验、回归分析等模型。自1970年代开始,John就是探索性数据分析(EDA)的发明者和倡议者,该思想目前已经被深入贯彻到几乎所有领域的数据分析实践工作之。
Q:但你所说的验证性到底是什么意思?你是说基于模型的推理吗?
John:是一种问题已经事先明确,而且大量的技术选择工作已经完成的情况。总的逻辑是,存在一些问题,并且这些问题已经明确了。而提出问题的唯一机制大概是探索性的。一旦它问题明确了,唯一合适的问题就是它们有多强的支撑,特别是新数据对它们有多强的支撑。而那就是验证性的。
Q:在严格的奈曼-皮尔逊验证分析方法中,甚至不允许你事先查看数据。这在贝叶斯主义者中总是有点争议。你对贝叶斯主义有何看法?
John:大多数时候我不会选择用贝叶斯主义,但我也不会说我永远不用它。如果我遇到了一个问题,贝叶斯主义是最佳解决方法,我会选择使用它。在过去几年,我认为对贝叶斯主义者最严重的批评是,他们认为应该有一个单一的答案,特别是他们认为不应该使用“如果-那么”这种看起来像备选选项的陈述中。但在我看来,现实世界中存在着一些必须用“如果-那么”来回答的问题。比如如果艾滋病感染以某种方式表现出来,那么就会如此等等。如果它们以另一种方式行事,那么就会有别的事情发生。这是不可能用一个单一的答案解答的。而一个贝叶斯主义者会争辩说,因为他要的是一个答案的后验分布,所以他不是在接受一个单一的答案。但是我认为贝叶斯主义者的这种想法,即你必须用一个框架,然后在某种程度上把世界上所有相关的数据汇总到其中,并且完成这些后你就只接受这个答案,而没有其他选项,这会有非常严重的问题。当然,经典的最小二乘法,一般的线性模型等等,也存在大量的这样的问题。但是,它们通常会留下一些备选选项,而且通常你不必非得基于之前的数据直接选择选项。比如你可以出于其他原因为双权(biweight)的权重函数进行选择。因此,经典统计学模型并没有采取“唯一的好东西是完美地聚焦于某个先验”的观点。从这个角度来看,它的问题远没有贝叶斯模型那样严重,尽管它们被使用的方式往往很接近。
译者注:“单一的答案/框架”可以理解为单一的模型。现实中存在许多复杂的问题,它们通常无法被单一的模型很好地刻画。我们选择模型或者在贝叶斯方法中选择先验的时候,往往就会引入一定的和真实情况的偏差,所以被数据训练出来的模型有可能和真实情况差别很大。如果我们只接受这个训练出来的单一的模型,不接受其他的备选选项,预测值和真实值可能差别很大。
Q:你认为EDA这本书是一种数据分析理论吗?
John:不,不是。
Q:你不想要一种数据分析的理论对吗?
John:不!Colin Mallows时不时在研究这个,我很乐意看到他所做的东西。但这不意味着他做的规范化的东西我全都喜欢。但是,如果我们想了解数据分析中到底有哪些东西(不是已经被规范化的那种),而这时有人尝试规范化,使你能发现哪部分能被规范化,哪些被留下未涉及,这基本上是对我们有好处的。所以,我一点也不介意“某种数据分析理论”(a theory),但我会介意“通用数据分析理论”(the theory)。
Q:但是,我认为在EDA这本书的前言中,你确实提到了在概念等方面,模糊的重要性。可是你之前也说过,你觉得任何人说“我有答案”可能是犯了错误。这似乎是你的原则之一。
John:嗯,这是科学而不是数学。从历史的角度来看,在科学领域,你唯一能确定的是,在你所思考的特定领域很可能会发生一些本质性的变化。这在数学中是不会发生的。
Q:新的东西被加进来。
John:而且旧的东西正被改变。
Q:不,我是说数学。所有可能发生的事情就是增加新的东西。在数学里,旧的东西,如果它们曾经是正确的,那它们就是正确的。
John:是的。虽然关于“正确”是什么这个问题,并不像人们想的那么简单。Herman Weyl评论说,他唯一清楚确信的是直觉数学,但由于他想做数学,他没有限制自己做什么。挺聪明的一个家伙。
图3:John·W·Tukey于1973年获得尼克松总统颁发的美国国家科学奖章。
贝尔实验室
Q:当你开始在贝尔实验室工作时,你的经历是否与现在发生的事情有些相似?
John:当我第一次去贝尔实验室工作时,战争还在进行。我们在普林斯顿所做的事正在收尾,我去贝尔实验室时有一个明确的想法,那就是我将参与NIKE导弹项目(防空导弹),就是类似在思考方法等方面提供一些工具。
Q:这意味着有一群人在做这件事?
John:Walter McNair和Hendrick Boder是两位关键人物。Walter为电话公司做了一些奇奇怪怪的东西。他的团队建造了第一台气象机。当你打电话进去,它告诉你天气会是什么样的。他有点像是从事声音方面的事。Hendrick是一位数学家,也是一位电路专家,属于会给你反馈的那种类型。
Q:你要设计这个导弹。
John:嗯,我们要为整个系统设计一个原型。Bernie Holbrook,他原来是一名交换机工程师(switching engineer)。他和我一起或多或少共同完成了弹道、空气动力学和弹头方面的工作。我们最终使用了非常经验主义的方式做这项工作。有一些女士通过转动手动计算器做微分方程的积分。问题是导弹要走哪条路径才能飞得尽可能远,且仍有足够的速度机动。我坐下来,对它做变化,得到了四个方程组,如果你对所有的方程进行积分,就会发现这些小的变化是什么样子的。但这并没用。更好的办法是通过观察迄今为止我们所做的事,然后对上升特征值做一点修改,以及看看这么做或那么做会发生什么。超音速空气动力学当时处于非常初级的阶段。唯一通过分析得出的是不可压缩流(incompressible flow)模型,当时的预测是,如果你以马赫数$\sqrt{3}$(译者注:马赫数,指速度与音速的比值,此处意为$\sqrt{3}$倍音速)通过,那么会产生与想象中相反的控制效果。这并不是在风洞或大气中发生的。至于弹头,我们尽可能利用人们对脆弱性的了解,得到了个合理的答案。然后,根据这些出了一个报告。其他人则在做操纵导弹所需的计算机方面的事情。Walter McNair和惠帕尼(Whippany)的一些人发明了一种全新的雷达来实施跟踪。所有这些都写进了一份报告,并决定继续向前推进。于是我们一小队人飞到海边,试图说服道格拉斯(Douglas Aircraft Company)成为分包商。我当时没有参加会议,但没过多久话就传开了。Walter对道格拉斯的人施加了一点压力,道格拉斯的人们说“但是我们是制造飞机的,不制造导弹”,Walter反问说“那你觉得我们是造什么的?”这就结束了这场争论。所以,不管怎样,我花了一年左右的时间全职做这件事。后来事情范围逐渐缩小了一点。但我一直因各种导弹原型,导弹或其他东西的发射而去白沙(译者注:白沙导弹靶场,White Sands Missile Range,是美国最大的军事设施),并习惯了坐在放了一个小收集盒的桌子旁边。当时的规则是,如果任何人提到雷诺数(Reynolds’s number,译者注:在流体力学中,雷诺数是流体的惯性力与黏性力的比值),他必须在盒子里放点零钱。大致印象是说,导弹的表现因为雷诺数而不同于在风洞里的表现,这是一种逃避的说法。但从那时候起,我就开始参与其他事情了。
Q:那是在战争期间,贝尔实验室基本上是政府此类工作的分包商?
John:嗯,西部电气(Western Electric)负责承包,贝尔实验室是一家非营利的分包商。
Q:那么在战后,这项军备研究是停止了还是继续了一段时间?
John:嗯,像雷达研究之类的事情一直在进行。西部电气,我肯定他们保留了NIKE导弹的研发。我不知道后续事情的合同安排是怎样的,因为整个开发都在继续进行。NIKE变成NIKE Ajax,紧随其后的是NIKE Hercules,这是一款体积更大、射程更远的导弹。
Elizabeth:我记得,我们结婚后,你仍然时不时地去白沙。
John:确实。去“穷乡僻壤”探险,看看是否能在某处找到一些碎片。
Q:想知道它击中了哪里?
John:嗯,可能也是为了找回一些碎片。
Q:你在贝尔实验室工作时,Shewhart还在那里吗?
John:是的,在的。
Q:那儿有统计组吗?
John:嗯,Walter一直在质量控制部门。到那时为止,核心人物是Shewhart、Dodge,在较小程度上可能还有Romig。他们与质量控制有很大关系。他们甚至不在研究部门。后来,在最后几年里,Walter确实搬到了默里山(译者注:Murray Hill,贝尔实验室所在地),从事研究工作。但有一段时间没有统计部门。Paul Olmstead,原先是普林斯顿大学的物理学家,从事了统计学的应用工作。但是,那儿有一个非正式的人际网,我花了一点时间弄到了一份名单——一份对统计有兴趣的人的名单,以让事情稍微进行得顺利些。最终,他们雇佣了Milton Terry,他是第三个被认真考察的人,也是第一个各方面都认可的人。
Q:他是一名统计学家?
John:他是个统计学家。
Q:像香农(Shannon)这样的人呢。他还在那儿吗?
John:是的。
Q:他更像是一个数学家?
John:是的。他绝对是。但是是一个对实际问题感兴趣的数学家。他写了一篇论文,题目让一些实验室的人感到不安;好像是叫“如何用蹩脚的继电器可靠地做事”。(译者注:Moore和Shannon, 1956, Reliable circuits using less reliable relays)。
Q:就这标题?
John:标题里有“蹩脚的继电器”的字眼。他们不喜欢那样。当时有个问题是,你怎样把东西连接起来,这样即使部分失效,但它整体仍然正常工作。当然,信息论的东西,某种程度上是由情报分析员同时发明的。Shannon是一个非常理性的人,但他不是一个数据分析员。
Elizabeth:John,那时他出现在行为科学中心(the Center for Behavioral Sciences)是怎么回事?就是我们在那儿的那年。
John:嗯,可能是信息论,人们认为它在心理学等领域很重要。行为科学中心总是有一些奇奇怪怪的人,甚至比如说我。
Q:但Shannon比你大很多,不是吗?(译者注:事实上Tukey比Shannon大一岁)
John:不知道;我认为不是。如果你在中心的最后一次晚餐上看到他,他骑着独轮车,Betty(译者注:Shannon的夫人)坐在他的肩膀上,你不会认为他是个老人。
Q:接下来我想我们应该谈谈时间序列分析和你与Blackman的书。Blackman是谁?
John:他是个通信数学家。现在,让我想想这事该从哪里说起。(John一边喝茶一边查看参考书目) 嗯,后来所谓时间序列工作的起源可能来自一些实际问题,其中一个是测量大气中的不规则运动,它导致一架带有固定控制装置的飞机不能直线飞行。惠帕尼(Whippany)的小伙子们对这个问题有兴趣,因为他们想了解飞机轨道上最低限度不可预测的东西是什么。最后他们雇了康奈尔航空实验室(Cornell Aeronautical Laboratory)沿湖边驾驶飞机,因为那是附近你所能找到的如此均匀的表面。
Q:之后你分析了雷达数据?
John:你记录下控制装置在做什么,记录下加速度等等,然后试着理解它。在这种情况下,它一开始不起作用,因为人们一直在试图读取记录上每秒钟的平均值。当我们让他们读标记处准确的记录时,分析就开始变得有意义了。但这涉及相当复杂的多元时间序列,其中一些回归系数是你从风洞行为中知道的,也许有些你不知道。所以,这就是为什么我在参考书目中找到的第一篇时间序列论文是1956年Press和Tukey的《功率谱分析方法及其在飞机动力学问题中的应用》(译者注:Press和Tukey, 1956, Power spectrum methods of analysis and their applications to problems in airplane dynamics)。Blackman和Tukey的论文《从通信工程的角度测量功率谱》(译者注:Blackman和Tukey, 1958, The Measurement of Power Spectra from the Point of View of Communications Engineering, I, II)发表于1958年。普林斯顿大学一直有和来自宾夕法尼亚州立大学的Hans Panofsky一起进行的各种活动,他一直在用Johnny的新电脑测试低空大气湍流的测量结果。
Q:这是天气数据?
John:是大气数据,但不是天气数据。特别是布鲁克海文塔(Brookhaven tower)对各个方向的风的分量速度进行了测量。所以这件事就牵涉进来了。那可能比另一个早。它没有产生任何与我发表的文章直接相关的东西。另一个研讨会的问题是H.T.Budenbom以某种形式获得的关于新雷达性能的数据,他希望将其转换为另一种形式,以便他将其带到海岸的一个保密会议上讨论。Dick Hamming和我以某种方式发现,如果你用1/4、1/2、1/4来平滑数据序列,情况会明显变好。因此,Dick和我花了相当长的时间试图理解为什么会这样,这产生了测量噪声颜色记忆(译者注:Blackman和Tukey,1958,The measurement of power spectra from the point of view of communications engineering, I, II )。Blackman和Tukey的那篇论文展示了我们一起完成的工作。Blackman一直在教工程师们。他对当时正发生的事情了解很多。我们俩设法把那些东西整合在一起。
(译者注:关于测量噪声颜色记忆还可参考TUKEY论文集第一卷Time Series的前1-127页收录的论文:Tukey and Hamming,1949,Measuring noise color.,但未找到电子资源。)
Q:目标受众是工程师吗?
John:嗯,目标受众是那些能够用点数学,但不必用得太复杂的人,包括工程师。我不知道我们的作品多佛出版社(Dover publication)是否还在印刷。我最后知道的时候,还在印。它是从1959年起开始印刷的。
Q:它为时间序列的统计文献增加了相当多的内容。
John:还有其他一些事情是同时并列进行的,不一定写进去。有两卷关于时间序列和与其相关东西的论文集。
Q:有趣的是,你说你是在贝尔实验室做的,人们会认为是信号处理,但实际上并不是,而是大气数据。
John:不是,我们只是碰巧提到了大气数据。我并不知道那都是用来干什么的。但举个例子,在Mike Healy、Bruce Bogert和我参与了倒频谱研究之后,那里的一个人或多或少用了倒频谱相关的东西,制作了第一台能真正可靠地描述你声音音调的机器。而且,雷达跟踪误差并不是实验室不感兴趣的领域。最近,有人从事水下地球物理学,其中光谱分析至关重要。诸如此类。Budenbom的数据让我们产生了“1/4、1/2、1/4”的认识,并最终让我们认识到一位名叫von Hann的维也纳气象学家喜欢这样做。这不是大气数据,是雷达性能(数据)。
译者注:倒频谱,cepstrum,就是将频谱(spectrum)的英文前四个字母反过来写。见Bogert, Healy和Tukey, 1963, The quefrency analysis of time series for echoes : cepstrum, pseudo-autocovariance, cross-cepstrum and saphe cracking.。
图4:John·Tukey,日期和地点不详。
个人相关
Q:John,让我们暂时把统计学抛在脑后,然后谈谈你的工作习惯。你做了大量的工作,这给我们留下了深刻的印象,我们想知道一个人如何可以产出这么多的。你做事的方式很自律吗?你需要睡几个小时?
Elizabeth:我可以来谈谈这个。不同时候不太一样,但是你可以通过他睡得多少,来判断他承受的压力大小。如果压力很大,那就会睡得很少。我想我见过他最紧张的时候之一,是在他在禁止核试验会谈和地下核试验检测的时候。John突然找到了一些论证,清晰地说明地下核试验是可以进行的,而且在地面上不会注意到,虽然人们认为在地面上会注意到。John,我说得对吗?
John:我记得不是那样的,但我记不太清楚了,所以无法明确否认。
Q:那么,睡得少意味着什么?
John:是的,一些关于睡眠的数字?
Q:五个小时?
Elizabeth:是的!
Q:在很长一段时间内?
Elizabeth:是的,那大概是最糟的。还有一次,你又回到了五个小时,John。那是在1959年,当时你对我说,如果在核试验的时候没卸下重担,你会病倒的,因为压力太大了。
John:嗯,不管怎样,我想我通常有一个八小时的睡眠目标。能否达到是另一回事。
Elizabeth:当你半夜吃零食的时候,几次是在工作?还是每次都工作?
John:是啊,半夜里吃零食是近来新出现的现象。
Elizabeth:但是不管吃不吃零食,你以前总是在同一时间起床。大约三点半。
John:但是,总的来说,对我而言,早比晚效率高。我通常不在晚饭后工作。
Elizabeth:而且他不喜欢在晚餐或晚饭后谈论白天发生的事情。他说经历了一整天已经够了,回家的时候就不用再想了。晚上临睡前他读一些神秘故事。他的睡姿根据故事的内容而有所不同。他总是(或几乎总是)三点半左右起床下楼去吃点心。他会再次上楼,也许会再读点书,回到床上,然后在不同的时间醒来。但如果他早上五点醒来开始工作,我就知道有麻烦了。他努力成立统计系的那几年经常发生。当时,他对我说,如果他没有著作要写(主要是EDA),他可能永远扛不过在普林斯顿开办这个系所经历的精神折磨。与此同时,在贝尔实验室也有一些不断增长的烦恼。大约在60年代中期,Ram Gnanadesikan担任贝尔统计部门的负责人的时候——我不能确切地告诉你具体时间——但这对改善John和我的生活产生了巨大的影响。
John:其中一个统计系,很长一段时间有两个(统计系)并存。他们之间有个很弱的屏障。
Elizabeth:当John在做自己的研究时,他会在早餐时下来到书房里工作。他会从早餐时间一直待到下午的某个时候,并且总是大声地放古典音乐。我不能告诉你我一遍又一遍地听了多少遍莫扎特。还有那些16世纪对唱的歌手。
John:我不知道你担心的是哪一个。
Elizabeth:我不担心;我只是觉得很有趣。
Q:但这只是背景音;它并没有真正进入你的大脑。
Elizabeth:他必须这样做,才能把可能会转移注意力的无关事物挡在外面。他把门关上,尽可能大声地放音乐,把它们全挡在外面。
John:“尽可能大声”有点夸张啊。
Elizabeth:嗯,我确实有能力关掉收音机。
Q:现在,他们有那种带耳机的随身听。你觉得那也行吗?
John:嗯,怎么说呢,两三个圣诞节前,纽黑文(New Haven)的亲戚给了我一个CD随身听作为圣诞礼物。打那以后,只要我在城里,它就一直放在床上,这样只要我躺在床上的时候想要用,就可以伸手打开它。
Elizabeth:你多久听一次?
John:一周三到八次。
Q:你能胜任大量工作的另一个秘密是什么?我认为快速吸收想法是必要的;非常好的记忆力是必要的。
John:也许是快速产生想法,以及吸收想法。
Elizabeth:嗯,我要告诉你一个小故事。有一次,在布朗大学的毕业典礼上,John和院长正在互相交谈。院长是一名物理学家,他抱怨说,由于他的行政职责,他从来没有机会去搞任何工作。他跟John提过好几次了。John对他说:“我认为你真正需要的是一个可以远离一切,从而写作或做研究的地方。”John没有具体说明,但他说不应该在办公室。所以我问John他在哪里工作,John说,“为什么(这么问)?我当然在家工作。”你知道的,我还没有意识到这一点。这事没被揭穿。他从不去办公室做任何事。
John:这有点夸张,但并没有夸张得很厉害。
Q:当你去办公室的时候,你不是去那里做研究工作的。你去那里是为了一些特定的事情,开会、上课等等。
Elizabeth:这是关键之一。
John:可能相当多的工作是在默里山(Murray Hill)进行的,因为那儿可能少了很多让人分心的事。
Q:保护得更好。
Elizabeth:嗯,还有一件事确实起作用,那就是你得到的秘书支持。John在1968年还是1969年面试了三个不同的人,以填补贝尔实验室空缺的秘书职位。他选择了Mary Bittrich,贝尔实验室从不知道是什么打击了他们,因为他还把普林斯顿大学正做的部分秘书工作移了过来。我认为这来得正是时候,因为普林斯顿大学从来没有足够的秘书支持工作。
成长和教育
Q:John,我们知道你是在新英格兰(New England)长大的。你的新英格兰文化背景对你的生活有多重要?你认为它以某种方式塑造了你吗?你认为如果你在这个国家的另一个地方长大,情况会有所不同吗?
Elizabeth:我想这是你自己永远无法回答的问题。John,你觉得呢?
John:我乐于同意你的意见。现在,关于这个你会跟他们说什么呢?
Elizabeth:他是个彻头彻尾的新英格兰人。我在普林斯顿待了两年后遇到了John。但是,重要的是,我在韦尔斯利学院(Wellesley College)工作以及在哈佛读研究生时,都住在新英格兰。这使我发现新英格兰人民,他们的价值观以及一切都非常有包容性。比我成长的大西洋中部各州更包容。在新英格兰,特立独行不被认为是特立独行;人们就是这样,他们有权利这样做。你根本不去想它。那里的氛围完全不同;是独立自主的氛围。这可能是因为他们长期以来一直是一个海洋型社区,解决过很多问题,他们对于承担起一个问题并做对此决定并不反感,这点我很喜欢。因为一般情况下,你永远不会怀疑一个新英格兰人对某事采取的立场。他们不是彼此的复制版。个性是必不可少的,我认为这是John最擅长的事情之一。我的家人第一次见到他时都很震惊,因为他太反传统了。我在一个某种意义上非常传统的家庭里长大。圣公会(Episcopal church),你知道的,你该做什么,不该做什么。但由于我母亲的背景,我也很不传统。她来自一个在弗吉尼亚州生活了200多年的拓荒者家庭。他们像新英格兰人一样开创了自己的生活。我的祖父母是浸礼会教徒。在南方,你要不就是浸礼会教徒要不就是卫理公会教徒。但是,从另一方面来说,我的家庭中有很多被接受的怪癖。后来我终于意识到这是John吸引我的原因之一。他第一次出现在我父母家里是来接我的。他穿着一件很旧的泰迪熊大衣,你知道那种很像泰迪熊的东西。这是一件假毛皮,已经穿了很多次了。当准备出门时,他拿出一顶帽子。那是一顶宽边帽,像软呢帽或类似的东西,无法辨认。他把它压扁了,好放进口袋里。这样,如果天气变冷了,他就能戴上。那顶帽子简直“惨不忍睹”。我早就告诉我母亲,他话不多,但恰如其分,我到现在仍然这么认为。
Q:我认为很明显,新英格兰的背景非常重要。
Elizabeth:而且他并没有丢掉它。这也是一个价值体系。我崇拜John的父亲,因为他有一种很好的激发人的方式,很有幽默感,实际上比John更幽默。他是John的榜样,非常安静,不咄咄逼人。他在耶鲁大学获得了古典文学博士学位,曾在雅典的美国学校学习了一年等等。他的第一份工作是在密苏里州自由市的威廉·朱厄尔学院(William Jewell College)任教。那是所男子学院,一所主要培养牧师的浸礼会学院。你知道第一次世界大战爆发时,所有的年轻教员都集体辞职,这样,有家庭和孩子要供养的年长教员就不会失业。
Q:他妈妈呢?
Elizabeth:他妈妈!嗯,让我从William Pepperell爵士说起,他是John的亲戚。他是在路易斯堡战胜法国人的美国人。William Pepperell爵士的妹妹嫁给了John Frost,他是John母亲的直系亲属。我们刚结婚时,John告诉我,他的父母在贝茨学院(Bates College,1898年的班级)的班上是第一第二。我问哪个是第一?他说他从来都不知道,我说,那一定是你母亲——确实如此。当我问他母亲这件事时,她只说“我只是昙花一现,而我丈夫是个学者。”不过那没关系,“昙花一现”干得很棒,她是一位出色的老师。John的父母都是老师,出身于一个教师世家。他们很早就意识到他们的儿子与众不同。我相信他们的教师训练和经验帮助了他们认识到这一点。他们决定在家里教育他。所以,正如他所说,他在学校学的内容是化学、机械制图和法语。
Elizabeth:你说你在新贝德福德(New Bedford)公共图书馆接受教育,对吗?
John:对。
Elizabeth:John的父亲对我说,如果John来问他一个问题,他们不一定会回答,但会给他线索让他去查找发掘。我认为这是另一个很有特点的事情,他不怕自己跳进问题去找答案。当他去布朗大学时,他没有去过任何和他同龄的其他学生去过的地方。他有邻居朋友,但从不是某个团体的一部分。在我晚年的时候我就想到了这一点,因为他在某种程度上是一个孤独的人,这一点非常突出。有很多人认识他,也有很多人喜欢他,但我想他仍然保持原样。我认为这是因为他直到进了布朗大学才去上学。他上了两年的大学后,住进了校园里。他实际上是1937届的学生,但他在三年后和1936届学生一起毕业了。布朗大学看了他的成绩说:“哦,天哪,你知道,你为什么不继续攻读(这是毕业典礼前的春天)——你为什么不现在就拿学位呢?”然后他又多留了一年攻读硕士学位。他的母亲在社区里非常活跃;我刚结婚时,她是YW的负责人(译者注:YW 疑为基督教女青年会,Young Women’s Christian Association)。她曾在马萨诸塞州的昆西(Quincy)和缅因州的布里奇顿(Bridgton)任教。她告诉我,在缅因州,当她早上醒来时,必须打破碗和水罐上的冰,以便取水洗漱。但是,她很快在昆西高中找到了一份很好的工作,然后从那里被新的贝德福德高中聘用。她和John的父亲是在贝茨学院同一个班认识的。John的父亲在密苏里州的自由市教书。他们于1912年结婚。John的母亲结婚后不得不放弃工作,因为马萨诸塞州的法律规定一个家庭中不可以有两个人工作。
John:我想那是错的。我认为州法律是规定已婚妇女不能教书。
Elizabeth:哦,好吧。那更糟。
John:我不认为这只是裙带关系。她不可能当一名全职教师。
Elizabeth:她可以代课,而且从打字到葡萄牙语,她什么都代过。我只是试着回想。我想这概括了他父亲和母亲的主要特点。
Q:John,你喜欢做什么来放松?
Elizabeth:阅读神秘故事排第一。
John:你觉得第二是什么,听古典音乐吗?
Q:做填字游戏(crossword)呢?
Elizabeth:是的,但不是很热衷。如果旁边正巧有一个,他会尽他所能玩的。
John:事实上,双人纵横填字游戏(double crosstics)比纵横填字游戏更适合我,但这会随着时间的推移而变化。有些年我玩得多,有些年玩得少。
Elizabeth:John,关于你的工作习惯,我还有一件事要提。我父亲问John,当他在圣坛上等我的时候,他是否会拿出一本黄色的便笺簿,不浪费任何时间!这对我来说是一个很好的特点,因为我有一个非常不耐烦的父亲。如果他在等我,或是我母亲,或是其他人,他会很不耐烦。John总是会做些什么以免不耐烦。
Q:他不介意等吗?
Elizabeth:一点也不。事实上,我认为他在这方面是个圣人,因为他总是有事要做,他从来不是个唠叨的或诸如此类的人。
Q:你会不会有时候不得不读两遍神秘故事吗?如果你再读一遍,你是忘记了情节,还是一直记得?
John:我当然不会总是记得。但如果只读两遍的话,会让我觉得很不好。所有好的故事会都用完的。
Elizabeth:我来告诉你另一个事。我父亲的一些亲戚每天晚上都大声朗读。这是Rapp家族的一种传统。所以,当John和我结婚时,我说:“如果我们买本书,在睡觉前大声朗读,感觉如何?”他脸上露出非常痛苦的表情,我说,怎么了?他说,你晓得,我能在一个小时内读完一本书,花一个晚上大声朗读太折腾人啦。所以我立刻明白了。
Q:所以,他是一个快速阅读者。
Elizabeth:是的,真的。
John:现在不像以前那么快了。
Elizabeth:John,你钓鱼了多少次?我们都是在海边长大的,钓鱼是我们都喜欢而且经常做的事情。
John:我想最好是用“一些”,毕竟我们不像Chick表兄那样。
Elizabeth:不,我知道。但那是一种消遣。我们应该给你看一张某个冬天我们在基韦斯特(Key West)拍摄的照片。我去拿。这很有趣。
Q:你们在深海捕鱼?
Elizabeth:是的,我抓到了一条大猎鱼(wahoo,一种大型游钓鱼),但他的逃走了。那些就是我们钓到的鱼。我们俩,在一天里钓的。这里这条大的,这滑溜溜的家伙把我的地窖塞满了。这两条大的,前面的那条,让John在那年的迈阿密钓鱼大赛中获得了一张奖状。我们在当地报纸上看到了我们的照片。我对一个在成长过程中经常带我去钓鱼的娘家叔叔说,“看看你的学生都干了什么。”他把那张照片发给了我的堂兄弟姐妹,并附上了一个说明:“你们为什么不这么做呢?”
图5:John和Elizabeth Tukey以及他们在基韦斯特捕到的鱼。
Q:园艺是另一件你喜欢的事。对吗?
Elizabeth:园艺的问题在于,你腿后的膝盖骨开始移动,你可以跪下来工作,但站起来越来越困难。所以我认为这将会给园艺带来限制。但是,他是个了不起的除草人。他和他的父亲过去常常出去到花园里除草,聊聊天,参观参观。而且,很有耐心。对大多数人来说,除草是他们在花园里做得最糟糕的事情,但这是他最喜欢做的。所以我很幸运。
普林斯顿的研究生岁月
Q:你能告诉我们关于你在普林斯顿读研究生时的事吗?
John:嗯,我在这儿读了两年研究生。
Elizabeth:他没有浪费任何时间!
John:因为我是1937年来的,1939年拿到学位。我在研究生院待了两年。
Elizabeth:在我们结婚之前,你或多或少一直住在研究生院。
John:嗯,有一个小团体在一起吃饭,里面多数是数学家。他们在普罗克托大厅(Proctor Hall)入口右边第一张桌子的近端吃饭。最近去世的Lyman Spitzer是官方元首,这是在1941年之前足够早的时候,当时元首(Fuehrer)还不完全是个坏词。他负责把多余的冰淇淋分成喜欢这类东西的人所需的块数。他是一位天体物理学家。那里还有一两个天文学家。Frank Smithies来自剑桥,是一名数学博士后,他也是这个小团体的一员。
Elizabeth:英国剑桥。
John:我们有一个小伙子,他是浪漫主义语言的研究生。他有个特权,如果他愿意,他可以把人放进克莱因瓶里。(克莱恩瓶没有内部。)那是我第一年来往的一群人,我以为我第二年也会与同样的人来往。但是Ralph Boas已经走了;他是一名国家研究员,那是他去剑桥与Besicovitch(译者注:俄罗斯著名数学家,1891-1970年,在实变函数理论、解析函数理论和概周期函数理论作出了重要贡献)共度一年时光的时候。
Q:理查德·费曼(Richard Feynman)是那个团体的一员吗?(译者注:费曼是传奇物理学家)
John:嗯,其中一件事是,来自英国的Arthur Stone(我不认为是Frank Smithies)不得不为他的活页笔记本买一些纸。因为他有英国尺寸的笔记本和美国尺寸的纸,他有很多纸条。所以他开始折叠正多边形,当他折一个六边形时,他意识到他得到了一些不寻常的东西。在六边形中,你看到的是六个三角形,通过向内和向外折叠,一个不同的面出现了。因此,Bryant Tuckerman、Dick Feynman和我都参与了挠性体的研究(flexagon)。所以这是一个偶然的活动。另一个偶然的活动是,Aurel Wintner在该研究所待了一年,当时该研究所的数学部分在费恩厅(Fine Hall),所以他在研讨会和课程之间做了一些事情。在课程结束时,C.C.McDuffie是我们三人之外唯一剩下的参与者,他带着所有人坐他的车去北泽西岛(North Jersey)庆祝。因此,根据国会图书馆的记录,该课程的笔记由Ralph Boas, Frank Smithies, John W. Tukey在Cyrus C. McDuffie的同情鼓励下完成。第一年我应该是一名化学家,是二年级分析实验室的助理,这让我有点不安,因为我在布朗大学的一个物理化学实验室做过一年半的助理。但在普林斯顿当物理助理你必须有博士学位。我学过一些化学,但更多的是数学。我在第一年年底参加了数学预科考试。
John:嗯,其中一件事是,来自英国的Arthur Stone(我不认为是Frank Smithies)不得不为他的活页笔记本买一些纸。因为他有英国尺寸的笔记本和美国尺寸的纸,他有很多纸条。所以他开始折叠正多边形,当他折一个六边形时,他意识到他得到了一些不寻常的东西。在六边形中,你看到的是六个三角形,通过向内和向外折叠,一个不同的面出现了。因此,Bryant Tuckerman、Dick Feynman和我都参与了挠性体(flexagon)的研究。所以这是一个偶然的活动。另一个偶然的活动是,Aurel Wintner在该研究所待了一年,当时该研究所的数学部分在费恩厅(Fine Hall),所以他在研讨会和课程之间做了一些事情。在课程结束时,C.C.McDuffie是我们三人之外唯一剩下的参与者,他带着所有人坐他的车去北泽西岛(North Jersey)庆祝。因此,根据国会图书馆的记录,该课程的笔记由Ralph Boas, Frank Smithies, John W. Tukey在Cyrus C. McDuffie的同情鼓励下完成。第一年我应该是一名化学家,是二年级分析实验室的助理,这让我有点不开心,因为我在布朗大学的一个物理化学实验室做过一年半的助理。但在普林斯顿当物理助理你必须有博士学位。我学过一些化学,但更多的是数学。我在第一年年底参加了数学预科考试。
Q:我认为普林斯顿数学系一直有一个名声,那就是你得自学。
John:嗯,有一个“婴儿研讨会”的传统:如果某门标准课程没被提供,那么预科考试需要考这门课的研究生应该聚在一起,自己开一个研讨会来学习。但其实课程并没有缺失。只是覆盖得不够全面。
Elizabeth:在那些日子里,在费恩厅有一个有趣的人,就是那个破译德军密码的人,图灵(Turing)。你和他一起开车去北卡罗来纳(North Carolina),对吗?
John:我们开着图灵的车去了北卡罗来纳州;我不认为他真的要去。在北卡罗来纳州有一个会议。
Q:他把车借给你了?
John:是的,图灵车。我想就是那样。我知道Ralph Boas就是其中之一,因为在某处有一张照片,Ralph拿着雨伞指着教堂山(Chapel Hill)上的一个路标,上面写着“西北12又3/4街”。我不能保证这足够准确。
图6:John·W·Tukey,普林斯顿大学(早年)。
环境政策
Q:您参与公共服务的一个重要部分是环境。你能告诉我们一些关于这个的情况吗?
Elizabeth:嗯,让我来告诉你这个故事;这很有趣。Rachel Carson在1950年代写了她的书。在1960年代早期,那些先锋派的人开始真正把所有这些环境问题放在心上。我记得有一个夏天,我想那是1962年,当时我们在行为科学中心,我们被邀请参加斯坦福大学校园的一个鸡尾酒会,在那里我们看到了钟开莱,一位John很久以前就认识的数学家。我们在喝姜汁汽水之类的东西时,钟开莱发现了John,他过来对他说,John个人应该为环境做点什么,发生如Rachel Carson所说的那种事情是绝对不能容忍的,他被激怒了。我想当时大家都知道John在华盛顿非常活跃,因为当时他是总统科学咨询委员会(PSAC)的成员。钟开莱说:“John,你得做点什么!”大约两年后,John退出了总统科学咨询委员会,但林登·约翰逊(Lyndon Johnson)成为了总统,作为“伟大社会计划”(the Great Society program)的一部分,他想做的一件事就是关注环境问题。现在,John,你可以从这里接着说了。
John:是的,嗯。事实上,事情可以追溯到远早于此。我曾一度在一个叫作总统空气质量咨询委员会(the President’s Air Quality Advisory Board)的组织里。在我看来,与其说它重要,不如说有趣。这正是Ruckelshaus担任环保署(EPA,Environmental Protection Agency)署长的第一个任期。他仍然乐观地认为,只要你告诉污染者他们在做什么,他们就会停止。因此,进PSAC之前,我就已经参与了一些事情——大概早了一两年,我不确定。之后,我在PSAC参与了一些环境方面的事,不过我认为具体细节并不重要。我想,我第一次不那么直接地接触到环境问题,是之前有份关于一些环境问题的报告正在被PSAC审查的时候。那还是我在PSAC的时候。那很有趣。Elizabeth刚刚提到了《寂静的春天》(Carson,1962,Silent Spring)。想到PSAC会提到Rachel Carson,农业部的一些人简直要哭了。真的,那种感觉强烈得令人惊讶。
Elizabeth:这会妨碍他们赚钱。那时DDT仍被大量使用。(译者注:DDT是一种合成农药和杀虫剂,《寂静的春天》列举了各地滥用杀虫剂所造成的种种危害,促使美国于1972年禁止将DDT用于农业上)
John:有一个关于平流层变化影响的委员会,是国家科学院国家研究委员会(National Academy of Sciences-National Research Council committee)的。这与臭氧问题有关。我发现自己在为科学院而不是总统科学咨询委员会做这件事。而且,在这件事上有几次争论,后来我很高兴看到其他人接手了这事。我们试图说出我们认为的科学事实。但我们觉得,能够真正传达我们对某些事情强烈感受的唯一方法,是提出切实可行的建议。所以,我们被消费品安全委员会打败了,他们认为这是他们的事。然后,再后来,嗯,与它重叠的是总统科学咨询委员会的一份名为“化学品与健康”的报告。其中大部分是非污染的,但相当一部分是环保相关的。那正巧发生在尼克松取消总统科学咨询委员会的时候。所以,这大概是又过了一年的时间了。它是通过国家科学基金会发布的。管理和预算办公室(OMB,Office of Management and Budget)不喜欢它,因为它提倡FDA等机构的管理者至少应该听取科学委员会对重大问题的建议。他们认为如果你把人“绑”得那么紧,你就找不到优秀的人来接手这份工作。所以,事情在一年的大部分时间里都停滞不前了。但最终还是通过了,附带了一个序言,表明发行当局不一定认同报告中的所有内容。但我们没有放弃。最近我还在国家酸性降水评估项目(NAPAP,the National Acidic Precipitation Assessment Program)的监督审查委员会任职。
Elizabeth:换句话说,就是酸雨。
John:目的是,确保国家酸性降水评估项目所有报告的审查过程,都得到适当执行,而不一定要亲自进行审查。但这是个有趣的操作。
Elizabeth:但你注意到酸雨是如何逐渐成为一个话题的。
John:情况比那还要复杂。国会在没有等待国家酸性降水评估项目最终报告的情况下通过了一项法律。当时有个官方称之为联合主席委员会的组织,粗略地说,是来自12个不同机构的12个人。到了发布最终报告的时候,他们想要得到这份报告,以便每个人都愿意签字。这导致了一些事情的发生,比如局长去国会说,酸雨对阿迪朗达克(Adirondack)湖群的持续影响,是增加200个左右的湖的酸性。
Elizabeth:你是海洋与大气委员会(the Committee on the Ocean and Atmosphere)以及另一个清洁空气之类的委员会的成员。
John:是的,我是国家海洋和大气管理局(NOAA,National Oceanic and Atmospheric Administration)海洋和大气咨询委员会的成员。该委员会非常多元化、总体上效率适中。它反映了各种非常不同的观点。我们有一个人来自西雅图海员工会,还有一个人代表一家大型商业船舶公司。在那个时点,你很难再进一步多元化了。尼克松无意中破坏了它,他任命了两名在众议院竞选中失利的人。那时民主党人仍然控制着国会。尼克松的行为使国会非常愤怒,他们解散了该委员会,成立了一个新的委员会,因此所有人都离开了。我想新委员会里好心而不够实际的理想主义者稍微多了点,我不知道它是如何运作的。
Elizabeth:和你一起受命的人之一是Shirley Temple的丈夫,他的父亲是太平洋天然气和电力公司(Pacific Gas and Electric Co)的负责人。
John:实际上他在中东从事水产养殖。他的背景让他很适合加入团队。
Elizabeth:嗯,当我们参加第一届联合国环境大会时(现在有一个正在纽约举行),我们遇到了很多有趣的人,比如Margaret Mead和Shirley Temple。Shirley Temple是那里最有效率的代表,因为她得到了所有非洲国家的认可,而且她在公共关系方面做得非常出色。
Q:健康影响研究所(HEI,the Health Effects Institute)是如何与您的环境工作联系起来的?
John:它的成立是为了关注汽车排放物对健康的影响。
Elizabeth:那么这应该包括在内,因为你为他们工作了八年。
Q:它是由汽车业资助的吗?
John:由EPA(环保署)和汽车发动机制造商各出资50%。
Elizabeth:这是另一件Bill Baker把John牵涉进去的事。你为什么不谈一谈呢。
John:Bill是HEI董事会的成员。它通过两个委员会运作——一个健康研究委员会和一个健康审查委员会。我在健康研究委员会工作了很长时间。某种程度上,这个委员会负责规划一个研究项目,挑选一些人来做这件事,和他们一起琢磨。之后的问题是,报告会是什么样子,在那个阶段,报告会提交给审查委员会,这样人们就可以确定报告在发表之前会被审查。
Q:那是在剑桥?
John:对。
选举预测
Q:你是哪一年参与到选举的?
Elizabeth:1960年。
John:是的,我想在1960年之前的选举我完全没有参与。最早可能开始于1959年。
Elizabeth:它与计算机的发展紧密相连,RCA(Radio Corporation of America,美国无线电公司)这样做最初是为了宣传他们的新计算机。虽然他们(财务上)拥有NBC(National Broadcasting Company,全美广播公司),但他们与NBC(经营上)是分开的。
Q:肯尼迪总统的选举相对困难。
Elizabeth:是的。他们把所有的分析师都锁起来,因为他们不相信分析师聪明到可以预测选举。他们把他们留在那里直到第二天早上八点。
John:你在想之后的一场选举。
Elizabeth:不,是那个。
John:对不起,这和我记忆中的不一样。那是我们的一个朋友在另一个电视网,他不得不过来道歉,因为结果证明他预测错了。我以某种方式参与了1960年到1980年间的选举分析,主要是总统大选。一两次是中期选举。选举统计技术与时俱进。我们中的一些人,特别是David Wallace,深度参与了这些技术的发展。最初,我们只是看看一个州的当前回复率是多少,以及此前选举中,历史上投票率与最终结果的偏差,这被称为$m$-曲线。计算程序越来越复杂,最终演变成有两个上升和下降阶段。一种计算方法是将估计的投票人数(结果)先升后降:比如说,顶部是整个州,底部是单个选区或选区组;另一个先升后降的过程是关于投票率将会如何表现。
Q:输入的数据是实际的投票情况吗?
Elizabeth:是的,有人报告投票情况。
John:这在历史上不同时期是不同的。最初,事情主要是以常规的信息处理方式进行的,有几个特殊的选区单独进行,直接报告结果。但随着竞争越来越激烈,最终进入了这样一个阶段:成千上万的选区与那里的某个人“拴在一起”,当他们得到一个结果时,他们就报告结果。但平行对三家电视台和若干报纸上报告3-5次,从财务上来说是无法接受的。因此,必须有一个统一的选举新闻服务,为所有电视网络收集此类信息。而这些网络只需根据它们在共同基础上获得的信息进行预测。NBC的通常是由一个统计小组来做这件事,Dick Scammon则特别关注关键选区。理论上,如果两边对得上,那么发布结果就是靠谱的。但是有一次,当统计学家们在樱桃山(Cherry Hill,记住,这里是RCA)的时候,我们在纽约和加利福尼亚州发布了州长竞选预测结果。有两个小时,民意调查的结果是相反的,我们没有收回我们的结论。大约两个小时后,情况开始好转,最终我们是对的。但无法保证每次都可以这样。这给模型造成更大的压力。
Elizabeth:有一年,所有的机器都坏了,你们只能用纸、铅笔和加法机来做,是怎么回事?
John:是的,有一次,在广播城的时候,机器出了状况,有人在地板上清理磁带头,希望可以让程序运行起来。因此,Dick Scammon和统计学家们尽可能地使用基本方法。
Elizabeth:不过那有点紧张。第一天晚上,距离如此之近,以至于NBC管理层不相信他们能信任统计员提供的数据,他们把统计员锁在那儿不让他们回家。直到早上八点半才让统计员出去。而最终你们是正确的,那是另一回事。
John:是的,那次选举芝加哥的河区(river wards)是关键选区。有一个问题是,两边旗鼓相当,难分胜负。没有人愿意让自己的支持率数字下降,以致让对手获利。我们后来稍微转变了一下思路,把伊利诺伊全州的数据加了进来。我觉得选举预测是最接近实时统计的东西。因为你必须要很快,且不能犯任何错误。
译者注:美国总统大选大部分州的计票结果在选举日的次日可以确定,但部分州的计票时间较晚。选举预测是新闻广播公司和博彩行业的重头戏,有几种类型的数据可用:历史数据(在各个级别,例如县(country)),选举前和选举中的民意调查结果,政治学家的预测,晚上流入的部分计票结果,以及选定选区的完整结果。John Tukey使用层次贝叶斯做出了重要而准确的预测模型,进一步了解选举预测可以参考Stephen E. Fienberg ,2007, Memories of Election Night Predictions Past: Psephologists and Statisticians at Work。
Elizabeth:你没有。你们都没有。你们从来没有失败过。
John:我们没有过任何失败,但我们可能会预测某个我们不该预测的偶然事件。
Elizabeth:你是说比如某一个参议员。
John:嗯,我只是不下定论。
Elizabeth:嗯,就是这样。从来不是绝对的。总是为意料之外的事情留有余地!
Q:统计学家是否接受过出境采访?
Elizabeth:没有,John可能有过一次。唯一有趣的事情发生在我身上。John给我安装了一个电脑屏幕,这样他问我一些问题,我可以马上回答。所以我一直坐在他旁边。一天晚上,大约两点半的时候,由于设备的原因,他们把工作室里弄得冷到你简直快要冻僵了。他们拿摄像机在房间里拍摄。大概一到两分钟,什么事都没有做。所以我穿着外套坐在那里看着屏幕,突然,我在屏幕上看到了什么,就是我了。幸好,在我做出反应之前,我已经离开了画面。那真的很有趣,因而我在NBC的存档里面。
Q:Elizabeth和John,感谢你们的盛情款待和这次非常愉快的谈话。
关于统计之都访谈
统计之都访谈是由统计之都发起和组织,由志愿者共同参与的访谈及翻译活动。访谈对象主要包括统计学与数据科学相关科教人员、青年学子和产业实践者。无论扬名四海,还是未出茅庐,他们都在努力用数据科学之火点亮千行百业之光。期待您的参加!联系方式:editor@cosx.org
发表/查看评论