本文是统计学家Leo Breiman1994年在加州伯克利统计系毕业典礼上的讲话,原文请参考此处。 中文译稿可参见施涛博客,本文对其进行了修改和润色。 Leo Breiman简介:加州伯克利统计系教授,美国国家科学院院士,20世纪伟大的统计学家,囊括多项统计领域大奖。机器学习先驱者,分类回归树作者之一,Bagging方法发明者,对模式识别领域有巨大贡献。于2005年逝世。更多信息可参考此处此处

Leo_Breiman 很久以前,Peter Bickel 就请我来做一个毕业典礼致辞。Peter 是非常聪明的,他知道,如果提前请人在似乎很遥远的将来某天去发言,他们很可能会答应,而我就是如此。但随着时间的临近,要发言的现实紧迫感也逼近了。朋友说,“你可以说些很长的笑话”。但是一来我并不擅长讲笑话,二来我觉得讲笑话似乎也不恰当。因此,我还是决定谈谈我们都熟悉的东西——统计——我们都是他的一份子,一个古怪而有趣的领域。

试想一下你已经离开且没有接触这个领域25年了。也许你至今一直在撒哈拉中部的石油勘探公司工作,或者在巴塔哥尼亚做调查,又或者在一个广阔的狩猎保留地中计算着珍稀鸟类数目。

但现在你决定去度假,到伯克利看看,探望下统计系的老教授和朋友。当然,你预料到了会有些变化:老教授变得更老,年轻的也青春已逝。但还会有什么其他变化呢?

好,这里恰有一个水晶球,从它那里我能看到这些变化。

假如我问问其他领域,比如物理、数学或工程的毕业生,25年后事情会如何,答案应该会很简单——一切照旧呗。毕竟,阿基米德早在2000年前就在做微积分,工程和物理,那么25年的发展算什么呢 。但统计正迅速发展 ,很难预测未来25年会发生什么,这是因为一定程度上,统计是一个奇怪的领域。如果你仔细思考下,你很可能对自己说:“我正身处一个多么奇怪的领域啊”。这确实令人感到很奇怪,但正是这种奇怪感和错觉,将强劲地推动统计的发展。因此,我来谈谈为什么我会觉得很奇怪吧……

很多人自称是统计工作者,分散于政府和企业各个部门中。他们设计并监督调查,从事于工业试验,质量控制,数据分析,以及其他无数的实际工作。

统计已渗透到社会各个角落。它在社会科学和卫生等领域被广泛应用,但同时也被滥用 。统计表明 A和B之间有关联或X导致Y,这样的表述早已司空见惯。几个星期前,在一个简单的统计项目中,我开始收集 “纽约时报” 中涉及统计的文章, 现在我的书桌上已经被它们堆满了。每天总至少有两三篇这类的文章 ——又一个胆固醇新研究,一个对犯罪的民意调查,在核电厂工作的人有较高的癌症发病率的研究,诸如此类。我们周围世界越来越依赖于统计,这真是令人惊讶!

不知你尝试过这样的实验没?问一个非技术的朋友,“医生是做什么的?工程师,化学家或物理学家呢?”答案通常是合理的。但若接着问,“那么你认为统计学家是做什么的呢?”奇怪的答案就出来了。也许,最常见的答案是统计学家类似于精算师,他们坐在发霉的旧办公室,在巨大的表格中收集着要公布的数字。更令人奇怪的是,即使报纸上涉及统计的文章远远多于其他领域的文章,比如物理或化学,但一般人仍很少了解我们是干什么的。当然,我们也可能很少知道大多数下层统计人员在做什么。

由于其性质不明确,很多人都是绕了很多弯路才变成统计工作者。谁进入统计界?谁成为统计学家?当然你们所有都可以,但问题有趣的是——你是怎么到这里的?我的印象是,大多数统计人员都是误打误撞进来的。

例如我自己的情况,我厌倦了做概率论,于是离开大学,试图以做顾问谋生。结果,在概率论领域并没有很多顾问的职位,但在统计中却有很多不错的选择,于是我逐渐转换方向,并尝到了其中的乐趣。

虽然以前我从未公开承认过,一生中我从没有学过一门统计课程,但是事实确实如此。我的朋友和同事, 刚刚做完了三年斯坦福大学统计系的主任的Jerry Friedman, 也没有。他是一个实验物理学家,是在斯坦福线性加速器实验室中,研究高能粒子碰撞的轨道时才开始接触统计的。John Tukey是纯数学家,George Box是化学家,其他许多杰出的统计学家都是不知何故漂流到统计这条大船上来了。

其他等领域都是有很专注的旅客的。有时你会听到这样的说法:从我14岁开始,我想成为一名数学家,或者一个物理学家,又或者一名医生。但我从来没有听说过的人说,“从我14岁开始,我想成为一名统计学家。”

另一个奇怪的事实是,没有领域会像统计这样,理论和实践是分离如此之大。例如,在过去十年出版的文章中,可能有上千篇关于一维密度估计的渐近分析,这就像“物理评论”杂志每月发表10篇左右关于牛顿两体问题的文章 。大部分统计理论与统计实际工作人员处理的问题相去甚远,仿佛生活在不同世界。

问题的根源就在于,统计领域本身正经历着根本性的身份变革。通常统计系是作为数学系的一个组成部分开始的。由于实用的缘故,二战后很多有天赋年轻数学家被安排来做统计工作。他们在短期内,给统计打下了坚实的假设基础,发明了决策理论,并提出了许多统计定理和证明。

当统计从数学系分离出来时,他们抛弃了统计是纯数学的思想,并悄悄加入了使用数据的主张 。目前,统计仍处于不稳定状态,它没有找到自己的轨道,但强大的力量正在推动着它不断前进。

金钱,就是一个很大的力量。钱对我们学科的影响有两方面 。第一,国家科学基金会已经开始说,他们将投入大量的基金到应用统计方面 ,那些希望得到资金的教员将不得不离开纯数学领域。第二,大学将人满为患,不能提供更多的教职,我们的许多毕业生将不得不到政府和工业界谋求工作,那里对有关定理和证明是毫不关心的。

同样强大的推动力量,是统计人员在有趣的应用问题中找到的真正的乐趣。比如利用隐马尔可夫模型在DNA测序发现一些东西,参与设计一个大型的艾滋病实验,或者做图像重建,这些都是非常有趣的。

问题越宏大,趣味也更多。比如语音识别,汉字识别,机器人控制,这些问题中的数据和阻碍都是庞大而复杂的。这些都是我们要研究的问题,因为提出方法,用机器人传感器传来的信息去识别障碍或抓住物体本就是一个统计问题,从一个麦克风收集的电流来识别单词和句子也是数据使用问题。目前大多在这些领域的工作都是计算机科学家、工程师和物理学家来完成的,但统计人员也开始逐渐涉及这些领域。

要知道何去何从,我们必须清楚自己真正所擅长的是什么。统计的核心是什么?需要我们是一流的数学家吗?几乎不用。那是什么呢?成为收集信息,分析信息,并得出结论的专家!这才是我们真正所擅长的。所以我认为,这正是我们统计学家应有的定位,我们的身份危机才会到解决。

不过,这是否意味着将不需要任何理论或数学呢?计算机科学系是我们可以借鉴的一个很好的模式。他们也往往开始作为一个数学系的组成部分,然后分开。他们的部门众多,有芯片和网络设计工程师,也有专门的理论家——思考如何更好的对NP完整性进行改进,以及发展概率分析算法。但理论家和芯片设计师都生活在同一个世界,息息相关。

所以,现在你来看看, 25年后在伯克利的校园散步,发生了什么事。第一件事,从欧几里得校门进来,你会发现到埃文斯大楼不复存在。你停下来问一个年轻的学生:“埃文斯大楼发生了什么事?”。他想了一会儿说:“这是我记得的, 在2000年初,有一些学生骚乱,他们认为埃文斯大楼有碍观瞻而要求拆除,当局妥协。”

埃文斯大楼

“那么统计系呢?”“统计系吗?我不知道什么统计系,但那边好像在建设。”于是你进入一个可爱小建筑,外面覆盖着紫色的瓷砖,门上方写着“信息科学” 。当你在内闲逛,一切仿佛似曾相识——刚才不是Nolan教授刚经过吗?不过,虽然25年后一些面孔仍然熟悉,但他们从事的事情早已不同了。

当你从房间到另一个房间漫步,并在每个打开的门外(对,门都是敞开的,很开放和舒适的大厅)倾听时,一个房间里的人正盯着固定在墙壁上的语音波的傅立叶转换,讨论英文句子的语法结构。在另一个房间里,三个医学博士和两个年青的统计学家正讨论10年中脑癌治疗研究的细节。而其他房间,一些天文学家和Stark教授正为数据给宇宙大爆炸起源的提供多么有力的证据激烈地争论着。哎呦,你再看!埃文斯教授和两个计算机科学家正在追赶在大厅里巡航的一个小机器人呢!

所以,这是我唯一有幸和你一起看到的。记得打电话给我,让我知道25年后到底是如何一番景象。牢记要乐在其中!愿原力与你同在!

发表/查看评论