2019年7月31日,在国际统计学年会(JSM)上,统计学会会长委员会(Committee of Presidents of Statistical Societies,简称 COPSS)将当年的考普斯会长奖(COPSS Presidents’ Award)颁发给了 RStudio 公司的首席科学家 Hadley Wickham,以表彰他在统计应用领域做出的卓越贡献。这个奖项是统计学领域的最高奖项,被誉为是统计届的诺贝尔奖,每年颁发一次,授予一位在统计学领域作出杰出贡献的青年学者(41岁以下)。过去的历届获奖者都是对统计理论作出了杰出贡献的学者,这次的获奖者来自业界,开创了先河,一时间群情激荡、众说纷纭,成了整个统计届、乃至人工智能领域的一件大事。
Hadley在R语言圈是个如雷贯耳的名字,他创建并发布了很多流行的R包,近一年(2018.8.1-2019.8.1)下载量超过1.3亿次,近两年下载量超过2亿次。下图列出了近一年来来下载量超过250万次的24个包的6年走势。
我们访谈了数十位来自学界、业界的朋友,汇总了他们的意见,匿名发布在这篇文章中,将这些天对这个事件的热烈讨论尽量还原出来。其中T开头的编号代表教师(Teacher),来自中国和美国的统计学相关专业;S开头的编号代表学生(Student),包括本科生、硕士、博士、博后,以统计专业为主,个别是生物信息、工业工程等专业;B开头的编号代表业界(Business)人士,来自互联网、量化投资、人工智能、咨询、电商等行业。
颁奖时的第一印象
7月31日的 JSM 会场上传来 Hadley 获奖的消息后,立刻刷爆了很多人的朋友圈。
下图是评奖委员会给出的Hadley的贡献和评奖依据:
一位在现场的朋友为我们分享了当时的感想和对 Hadley 获奖的看法:
宣布这个消息的时候,我在现场,第一反应很是震惊,这和我对 COPSS 会长奖的印象不一样。大部分获奖的人都在庙堂之上,部分人做过应用,但是 Hadley 是第一个做统计软件的。我知道有大牛为了这个奖奋斗了多年,出现了不在一个维度的对手很难接受。这个奖的残酷性在于,年龄到了就没有机会了,所以也理解落选人的心酸。但仔细一想,很多人(可能大部分是年轻人)应该都用过 Hadley 编写的 R 包,很难想象没有 Hadley 如今的统计图形或者R软件作图是什么样子。Hadley 确实是统计计算与统计图形领域的标杆。鼓励统计多元化也挺好的。不太清楚 COPSS 奖是否和美国最高法院大法官投票一样,少数服从多数。但是至少这次评奖,将如同一次重大的判例一样,对统计学的发展带来深远影响。具体的影响要长时间才能显现,但我个人乐见统计学朝更接地气的方向发展。(学生S1)
有人对 Hadley 这个名字可能不大熟,但一提到他写的 R 包那就印象深刻了。
有幸在现场目睹 Hadley 得奖这一历史性瞬间,然而在公布获奖者时,我其实是一脸懵逼,因为我并没反应过来他是谁……在场的许多观众也都面面相觑,因为屏幕上所显示的并不是大家所熟悉的学术大咖们的名字。但当屏幕转到 Hadley 的成就时,
dplyr
、ggplot2
等熟悉的名字不断唤醒着我们的记忆。而静下心来一想,便不禁赞叹于 Hadley 对统计学所做出的贡献。即便作为统计工作者,可能也只有少部分人用过 MCMC 这样的高端算法,但我相信至少有95%的统计人都使用过 Hadley 所写的包,甚至对于非统计专业的数据分析者们亦是如此。统计是大数据时代的基石,而 Hadley 就像是给了我们一把得力的铲子,让每一个普通人都能够为这个时代添砖加瓦。Hadley 对于统计学以及大数据时代兴起所做出的贡献,我想无出其右。(学生S2)
还有其他不在现场的朋友也表达了对Hadley的支持。
支持,天天都用
ggplot2
和tidyverse
。大数据时代这些工具都没有的话,完全什么都做不了。这些包大大简化了可视化和清理数据的编程难度,让我们可以把更多的精力放在模型和方法上去。(教师T1)
Hadley 的一系列 R 包似乎成了统计专业做数据分析的标配,大家戏称为“Hadley全家桶”。
开心!我经常用 Hadley 全家桶做作业哈,祝福哈哥!PS:这次因为 Hadley 得奖看到微信朋友圈刷屏,我才知道还有个 COPSS 奖哈,原谅我年幼无知。(学生S3)
很多人听到这个消息后都为 Hadley 高兴,因为大家都从他的工作中受益。
我觉得 Hadley 获奖是一个值得肯定的事。首先,我认为统计学研究应该关注应用与普及,这是学科产生影响力的基础,也是统计学发展重要的一环。统计软件开发者应当受到和统计学理论研究者一样的重视。此外,作为最受欢迎的R包的开发者,Hadley 的工作让数以百万计的科学工作者受益,这对统计学获得更广泛的社会认可以及社会资源具有非常重要的意义。同时,Hadley 开发的统计软件和数据可视化工具,极大地方便了数据的处理、分析和展示,也具有一定的原创性。总之,我认为作为统计学界的最高荣誉,对这样重要的工作给予肯定和鼓励。(学生S4)
COPSS奖励谁?理论和工具之争
有赞扬,自然也有反对。码农也能获 COPSS 奖?这是很多人的第一反应。尤其是学术界,反对的声音不绝于耳。
COPSS是一个非常严肃的学术奖项。不论R软件对社会的贡献再大,这不应该是由 COPSS 来奖励的。这样做让兢兢业业做学术的人们多么心寒!(教师T2)
有的人觉得这个先例很危险,认为 Hadley 的成果只是“低处的桃子”,如果被鼓励的话会对坐冷板凳专研难题的人造成打击。
COPSS 奖历年以来都是针对统计学家的,是针对严谨学术的,而不是给工程,工程可以设置其他奖项,但不应该是 COPSS 的定位。优秀、严谨的理论工作,坐好几年的冷板凳才能前进一小步,在这个过程中没有鲜花和掌声。相比而言,CS的很多工作一直是赚足了眼球拿够了钱,统计软件也很容易得到很多用户。基础不牢,地动山摇,数据科学中艰深的理论基础问题需要有人去啃。评奖泡沫化,鼓励大家摘低处赚吆喝的桃子,谁还愿意钻研那些老大难的问题?这不利于学科的长远发展。(教师T3)
有的学子甚至感到心寒。
哎,心寒!我做的理论方向很难做,引用率也很低。如果做统计的都往CS的方向走了,那如何体现学科特色?再这样下去我都想转行换方向了。(学生S5)
但是也有学者对统计届过于“迷信理论”的现状进行了质疑。
这次Hadley获奖对国内统计学界迷信四大天王的评价体系可以说是一个当头棒喝。(教师T4)
过于执着理论的话可能会和实际应用脱节,而 Hadley 创造的大量工具为理论联系实际提供了桥梁,很多研究人员感触颇深。
进入大学,接触统计学,我接受的教育总体偏向于传统统计,其主要以中心极限定理、分布的假定、概率等为基础。在学习的过程中,我也不时感受到学习的知识与实际应用的存在的一点脱节。Hadley 获奖一事,我认为对于我们新一代学习统计的学生具有很正面的激励作用。Hadley 鼓励我们用计算机和图表挖掘数据背后的潜在规律;进行笔尖推演的同时,也注重用编程找寻复杂问题的解决方法;在做研究时,偏重的不只是问题的高精尖而放眼于问题的普适性;并且,学会传播和分享。(学生S6)
很多人都认为这次颁奖可能是一个很好的信号,将会促进统计的发展。
从来没想过 COPSS 奖会发给一个“纯”应用统计学家。可喜可贺!这些年传统统计被 Machine Learning 等盖过风头。学统计的大家都自嘲做理论不如数学的,做应用不如计算机的。这次 Wickham 的获奖是不是可以说是统计界对外一个强烈信号:能把哪怕简单的东西(理论、算法等等)做给大多数人用的就是好东西!(业界B1)
Hadley的获奖,有的人高兴,有的人不高兴,但很大一部分观点认为,这个事件对统计学理论和实践的融合,甚至统计学的变革,是有促进作用的。
作为一个脱离理论界的金融从业者,首先要说 COPSS 奖脱离了理论界,其实就没什么人关注了,在真正的生活中,其实是沧海一粟,对大多数人其实比不上菜价涨了两块钱更重要。具体到本次得奖情况,因为在工作中用到了大量的编程,我只能说 Hadley 比其他人离实践更进一步,我很乐于看到他能够在做出很多贡献之后,得到一个好的奖励。我觉得可以说没有 Hadley 就没有R的大发展,而R在统计届贡献非常大,这两句话应该还是中肯的,只是大家在讨论是不是这个贡献能配得上COPSS。而我个人觉得,在多年理论中穿插一位 Hadley,是个很好的调剂和引导。奖项这种标杆,就是要为未来服务的。统计是个不断发展的过程,要变革,要进步。任何概念都需要结合新的情况,而不是止步不前。而我很乐于看到以不管任何方式,实现统计学发扬光大的目的。即使会动到部分人的利益,和部分人的饭碗。(业界B2)
从Hadley获奖后各方面的反应来看,不少人认为他受到了理论界的不公正评价,实际上,对公众来说Hadley其实比很多统计学理论大家都更有名,下面这位朋友的观点比较理智,可以对理论和工具之争做一个很好的注解。
我得向 Hadley 的广大粉丝直言,各位千万不要搞偶像崇拜。尤其是近两年,我观察到一些极度脑残的群体偶像崇拜行为。我认为这无论是对 R 社区还是对统计社区,都是非常不健康的。这种偶像崇拜风气,与 Hadley 本人的大力营销不无关系。我不记得是去年还是前年,他发了一张自己戴着蝴蝶领结的靓照,而随后的万圣节就有过度热心的粉丝照着这张靓照刻了南瓜灯,而且蝴蝶领结(bow tie)也成了粉丝圈津津乐道的一个梗。他长得帅不帅、梳什么发型、戴什么领结、穿什么衬衫、调什么鸡尾酒、烧烤什么肉,与我们毫无关系,我们完全不需要关注。喜欢一个人的作品就好,不要延伸到一些无关的方面(如外观和生活),更不要为了这个人而参与抨击、打压他的对立者或竞争者。比如不要把他创建的所谓
tidyverse
搞得像传销一样(仿佛没了管道操作符就写不了 R 代码了、没了tibble
就没了可用的数据类型),也不要因为 Hadley 写代码获奖而开始瞧不起统计理论工作者。若你因为码农获奖而瞧不起理论工作者,那么你就跟部分瞧不上码农的理论工作者一样自以为是。尽管长期以来,统计计算和图形研究者在统计学界都是弱势群体(尤其是图形和可视化,总入不了统计学家的法眼),但我们莫要杀死前面那条恶龙而盘踞山头成为新的恶龙去吞噬他人。(业界B3)
Hadley的贡献实至名归吗?
总体上来说,虽然有人执着于纯粹的理论,但大部分人对于 COPSS 奖励应用和实践是支持的,我们抛开纯粹的理论和应用之间的争议,单看 Hadley 在工具方面的贡献,是否真的实至名归呢?
有人认为 Hadley 的贡献只是普通的可视化工具。
做可视化的工具包太多了,Excel、Matlab、Python各种插件,各种包,五花八门,数不胜数。Hadley 的
ggplot2
只是其中一个而已,而且也没有开创新的可视化理论或者方法。相比而言,Leland Wilkinson 的 The Grammar of Graphics 创新了统计图形理论。John Tukey 的箱线图创新了分布的展现方法。即便是颁给统计软件,为啥不给R的两个作者 Rose Ihaka 和 Robert Gentleman,或者 Python 之父 Guido van Rossum?没看懂获奖的逻辑。(教师T5)
有人习惯了工具导向的工作方式,根本不关心 Hadley 的具体成果。
我不知道 COPSS 是什么奖,也不知道 Hadley 是谁。我所在的 AI 团队更关心一些计算机顶会的文章,尤其是来自 Google、Facebbook等大厂的,因为和我的工作息息相关,很接地气。而且,越是有价值的文章第一时间就会有不少公众号争相翻译,相应的代码(一般是Python)也会很快出现在 Github上,可以 pull 下来测一下效果到底怎么样,这一点简直不要太爽!同时,还有很多自发组织的微信群、线下沙龙活动,来召集大家一起来分享、讨论这些文章,氛围很好。不过,不太爽的是最近很多方法对硬件要求太高了,成了军备竞赛,像 XLNet 模型我们都训练不起。至于统计的文章,我很少看,扫过几篇好像都是我看不懂的复杂公式和证明,可能理论价值很大,但和我当前的工作没啥关系。(业界B4)
也有人对Hadley的工作非常熟悉,从工具的使用范围和工作量方面给了很高评价。
有生之年能见 Hadley 得奖,真是惊喜!平日的工作得 Hadley 全家桶加持,增速不少,非常感谢。我非常欣赏甚至是崇拜他的工作,写R包很容易,但去看看 Hadley 的代码,你很可能和我一样,都会感叹自己到底写了些什么垃圾!这个和搞理论的学渣看了理论大牛的文章的感受可能是类似的。以
ggplot2
为例,别看它现在在 Nature 系列有1200多次的使用或引用记录,年下载量也达1000万次。但这可不是一蹴而就的,从2005年算起,至今已经有近15年的历史了。2012年,ggplot2
发0.9版本,API基本稳定下来,2014年才发1.0正式版。从 GitHub 的记录来看,Hadley 本人增加代码34万多行,删除25万多行。以及,基本每天还得回答全球用户的各种问题。天才的程序员在这个小小的工作上也花了艰苦卓绝的努力!试问,能有几个人乐意花15年时间持续打磨一个图形包的软件?(业界B5)
也有人认为,从贡献上来看,Hadley 的成就也当得起这次的大奖。
我觉得任何学界业界争议都无法否认 Hadley 的巨大贡献。做理论不少人总觉得做应用很 low,毕竟工程很多都是重复而琐碎的,但不代表工程做的没创造和不精彩,写代码是体力活也是智力活,代码的API创造和数学追求一样,要简洁、强大而灵活,这需要智慧,我觉得 Hadley 很多软件包都具备了这些特点。对于统计这样应用类型的学科,不管理论还是工程,都得看最终社会贡献度、创新度和传播度等等,而且社会贡献度我觉得要排第一,不然那么多搞医药创新开发的,为啥屠呦呦可以拿诺贝尔奖,还不是因为青蒿素拯救了无数人生命,做出了社会大贡献!这样来看,我觉得 Hadley 拿奖也合情合理,他在统计绘图和数据分析上的贡献,绝对帮助N多人提高了效率,延长了寿命。如果某个统计理论提高社会运转效率,拿奖估计也是众望所归吧。至于学界可能批判的原创性问题,我觉得真没必要争执,谁不是站在先辈智慧上创造开发呢?有多少原创是大智慧而不是小点子呢?(业界B6)
无论我们对 Hadley 的具体工作的了解程度如何,光从 COPSS 奖的结果来看,应该也是不能小觑的。下面这位朋友的看法说到了其中的关键。
在我眼中,Hadley 有一项能力是将问题抽象至普通人能理解的程度,例如
ggplot2
将统计图形抽象为若干个可自由组合的元素、dplyr
将数据清理抽象为少数几个动词。这些抽象都不能算是他的绝对原创,他也是借鉴了别人或别的社区的理念。虽然这些理念存在已久(例如 The Grammar of Graphics、数据库中的范式、SQL 语言),但并没有人将这些理念以浅显的形式解释并实现出来,让数据工作者很快就能上手使用。我认为他的这些抽象与数学定理的抽象并没有区别,我们决不能说数学的抽象就更高贵,而代码的抽象则更低贱。有人认为推公式需要极大的耐心和努力去坐冷板凳,殊不知写代码一样要坐冷板凳,去仔细考虑如何从众多不同的实际问题中抽象出一条简洁的路。有人可能质疑,为什么不颁奖给 Lee Wilkinson(The Grammar of Graphics 一书的作者)或者 R 语言的创始人,我觉得这种质疑没有道理,照这么说我们该颁奖给我们的电脑生产商才是。原材料是很重要,但把原材料打磨成艺术品的艺术家也有他们的特殊贡献。(业界B3)
统计未来畅想
Hadley 的获奖一石激起千层浪,大家讨论的话题很快就超越了这次的 COPSS 奖项本身,对统计学的内涵进行了深入挖掘,并探讨了未来的发展方向。
很多人支持以需求为导向是统计学的典型特征。
需求是推动发展的原动力,Hadley 所做的内容同样也为需求的实现也做出了很大的贡献,这就应是值得极大肯定的。(学生S7)
也有很多人赞同推广统计的应用应该是统计学的重要内容。
我认为是实至名归的,他对R的突破、统计学的推广都做出了很大贡献,在学统计的过程中我们也有切身的体会。虽然理论造诣可能不比往年获奖者,但应用推广同样也应该是统计学科的一项重要内容。(学生S8)
大家也普遍认为解决实际问题是非常重要的。
我觉得这是好事情,统计不能局限于高深的理论,而应该有一部分让大众接受,帮助分析和解决实际问题,促进社会发展和进步。这一部分和理论研究的部分没有高低之分,都是统计学科不可缺少的组成部分,应该得到同样的尊重。(学生S9)
有的人认为统计可视化生动地展示了数据背后的信息,可视化也是统计学的精髓。
我觉得今年的 COPSS committee 眼光独到,虽然结果让学院派的统计学家们感到意外,但是从获奖者的贡献来看,他是当之无愧的。统计的范围很广,不仅仅是数学推导,更重要的是展示数据的信息。Hadley Wickham 让普通的 R 语言展示了无穷的魅力,我时常被
ggplot2
产生的精美统计图形所震撼,图形包含的信息比公式、数字和表格生动形象得多。希望 Hadley Wickham 的获奖激励未来的统计学家们对统计可视化的热爱,拓宽统计学对科学的真正影响。(教师T6)
也有人认为统计学发展的基底在于数据,数据的条件改变之后,以模型为核心的传统数理统计也需要跟着变化。
Hadley Wickham 获得 COPSS 奖,是统计学科发展的一个分水岭,引发争论在所难免。统计学的发展基底在于数据,数据大变,统计学也一定会随之而变。以模型为核心的数理统计在数据新时代表现强差人意,以算法为核心的统计学习和深度学习初现曦光,其理论和方法在近期将有大的发展。就影响力而言,Hadley得奖是名至实归的。但希望统计学科能够走得更远,比如说能建立基于算法思维的统计推断理论,从而解决真实世界的问题。毕竟,统计学不是数学,统计学就是统计学,雅俗共赏的。(教师T7)
还有人认为,统计和数学不同,应该有落地的产品。
统计学不是数学,可以孤芳自赏,统计学是实践科学,没有产品,统计学的思想和理论都落不了地,实现不了价值。因此,统计学需要产品!产品!产品!Hadley 是了不起的人物,实至名归!他的作品就是最优秀的产品。(教师T8)
追溯统计学的本源,就是一门工具性的学科,所以 Hadley 的工作是符合统计学本质的。
Hadley 得奖我觉得是好事。统计学本身就是起源于田间实验,是各类学科做实验数据分析的工具。回归到它的工具性本质,那么无论是从数学的角度,去论证各类统计分析方法的严谨性,还是从软件开发的角度,让各种成熟统计分析方法能得到广泛的应用,都是使得统计学这门工具性学科发挥更大价值的方法。我们研究统计学,目的是为了让物理学家,化学家,地理学家,天文学家,人文学家,历史学家,心理学家,商人,经济学家,政治学家等等更好的认识这个世界。所以,统计学最高荣誉颁发给一个软件开发者,一个让全世界统计学家和数据分析工作者可以免费地,更方便地去开展工作的 Hadley,我觉得挺好。与其争论统计学奖颁给谁,不如花更多精力去看看在学术界,工业界各种对统计学方法的误用,对数据分析结果的误读。有多少决策是因为采用了错误的分析方法得到了错误的结论,进而做了错误的决定,产生了追悔莫及的损失。统计学的理论和软件,都是工具。而这工具现在却被大量的误用,也许不久的将来,“靠谱斯奖”可以颁给某个让全世界数据分析工作者都能正确使用统计方法的人。这样世界该多美好啊。(业界B7)
也许放开门户之见,把统计学和各种工具、各种理论融合起来,会让统计学发挥更大的作用。
Hadley 不需要什么奖来证明自己,金碑银碑不如用户的口碑,有没有这个奖,Hadley 的工具包都造富至少数百万 useR;得这个奖也不发多少钱吧。今年的例外,只是说明评奖委员会对什么是好的统计工作和往年的评分标准不一样了。无论在哪里,奖项只是个仪式,工作有没有价值,在实践中会被验证。部分高深莫测的东西,即使当代没有被认可,未来也会被发现的(比如梵高的画)。扯远一些,我在读书的时候生怕统计学在大数据时代的滚滚浪潮中落伍。现在到了业界,面临的都是一个个实实在在的问题,关注的是怎么解决问题,什么知识有用就赶紧学什么,而不拘泥于用的是否都是所谓本门功夫。业界人一切向钱看,都很务实,不会像在学校时候还有什么可笑的门户之见。而且,数据科学的高峰,各行各业的人都在攀登,统计学家们只是其中一只力量,即使这只队伍走错了路,其他人也会吸取经验和教训,对于整体目标的实现毫无影响。但统计学最有价值的精髓不仅不会被遗忘,反而持续发扬光大,无数各种学科的人都会去自学,因为真的有用;毕竟实践是检验真理的唯一标准。(业界B8)
也有很多争论是关于新时代统计学何去何从的问题,至今没有定论,下面的这段论述就是其中一种。
今年很有一些使得统计界舆论产生波澜的事件,其中包括 3 月 20 日《自然》的报道(Scientists rise up against statistical significance,以及It’s time to talk about ditching statistical significance),和最近的COPSS 奖。在《自然》文章之后,一些人惊呼“统计白学了”,另外一些人则强调统计如何有用,似乎《自然》文章是要推翻整个统计学科一样。
这次 COPSS 奖落到了提供了一些 R 程序包的 Hadley Wickham 头上,又掀起了不大不小的议论潮。在华人统计圈中,对于这两个事件有比较强烈非正面反应的多是有些名声和资格的统计学家,而年轻人和应用领域人士则大多显示出欢迎和愉悦的态度。这些情况归根结底可能反映了下面的问题:
统计的定义及获得 COPSS 奖的资格。
对于统计的定义从来就没有共识,也不可能有共识,包括定义统计是数学的一个分支及定义统计是关于数据的科学(参看各种百科全书);而对于统计与数据科学之间的关系的观点分野则更显著:从 NC-State University 的 Marie Davidian 教授的“我们不就是数据科学吗?”(Aren’t we Data Science?)到 Columbia University 的 Andrew Gelman 教授的“统计是数据科学最不重要的部分”(Statistics is the least important part of data science)。 把统计看成数学,或者把统计看成科学,或者把统计看成技术,这因人而异,没有谁强迫你如何定义。其实大部分统计学家心里大都有一个什么是统计的概念。而多数给自己挂上“统计学家” 标签的人,都或多或少按照自己的工作或研究方向来定义统计。所有这些定义或者标签都没有也不可能达到普遍的共识,即使在某些范围达到了共识,这些共识也会因人、因时代而改变。
基于前面谈到的对统计定义理解的差异,对于什么人能够获得 COPSS 奖自然有不同的看法。实际上,每一次颁布 COPSS 奖都会有各种不同的反应,但这次的反应的确比以前大了一些,这实际上反映了现实世界变化的速度。
负面反应的原因。
为什么资深和年长的统计学家中对《自然》文章和 COPSS 的负面反应较多呢?可能是人之常情,如果人年纪大了、思想迟钝了、对新生事物不能紧跟了, 那他们往往会对事物的最新发展有所抱怨,并且怀念他们所习惯的“光辉过去”。人们必须能够理解那些过了 50 岁但仍然不会熟练使用编程软件的统计教授们对一个年轻程序工作者得统计奖的心情。我们也必须学会理解那些完全依赖数学假定来做数学家所鄙视的“统计理论” 的专家权威在数据驱动的大潮下的尴尬。当然,还有一些人可能对于别人得奖而产生的不无妒忌的滋味,这也是人之常情。无论如何,如果确信自己干事业出于兴趣或者是为科学或人类福祉(而非个人名利),那么,杂志如何说、什么人得奖等事件和我们又有什么关系呢?(教师T9)
结语
由于我们的调查范围和时间有限,无法将更多不同的观点收录进来。如果您有任何意见,欢迎留言评论,或者投稿给我们。以及,对本文中各位评论者(每段引用的最后都注明了其编号)的观点,您支持哪些、反对哪些,欢迎点赞或者怒怼。
发表/查看评论