【COS编辑部按】:受访人:北大光华张俊妮副教授,采访人:朱雪宁

简介:张俊妮博士现任北京大学光华管理学院统计学副教授。她1998年毕业于中国科学技术大学,获计算机软件学士学位;2002年毕业于美国哈佛大学,获统计学博士学位。她的研究领域为因果推断、贝叶斯分析、小区估计、数据挖掘和文本挖掘。

写在前面的话: 这学期张俊妮老师在光华开设了“商业数据挖掘”的课程,我有幸选修了这门课程,并在课程中接触到很多隐藏在数据挖掘方法背后的统计思想。2013年11月22日,张俊妮老师在办公室接受了统计之都简短的采访,并谈及了她的求学过程以及现阶段的学术研究兴趣。

0267_PHOTO Xuening: 听说您本科专业是软件与计算机,后来是怎么想到转到统计的呢?

Zhang: 不想老做编程(笑)

Xuening: 是觉得太辛苦了嘛?

Zhang: 不是,就是觉得只是编程的话没什么意思;另外就是当时正好参加精算考试,考了一门统计,觉得统计虽然学得不多但是挺好玩的。

Xuening: 当时觉得统计里面哪些比较吸引您呢?

Zhang: 当时就是觉得处理实际数据,得到一些有意思的结论,跟实际结合得比较紧。当时不想学计算机,正好数学又学得比较好,所以就想着进入这个领域。

Xuening: 听说您四年就完成了哈佛的博士学位,您在哈佛求学期间您的导师Rubin给您的未来发展和人生规划带来了什么影响?您在研究过程中有没有遇到什么困难呢?

Zhang: 影响还是蛮多的。Rubin老师认为不能单纯把统计当作一门数学,也不是一有数据就直接建模,在统计分析背后有很多的statistical thinking(统计思想)。Rubin老师做的那些最具影响的工作,不管是missing data(缺失数据)、casual inference(因果推断)还是EM,都是试图在背后思考统计应该怎样去处理实际问题。他喜欢用一些看起来可能非常简单的东西,比如missing indicator(缺失指示变量)、treatment assignment indicator(处理分配指示变量)、各个变量之间的关系,马上就能把事情说得很清楚。他比较反对上来就是一个很复杂的模型,然后就是建模、估计参数。

Xuening: 其实是崇尚简单的?

Zhang: 对,他其实是倾向于把问题讲清楚,建模到底是对什么东西建模,模型里面的变量到底是什么关系,假设到底隐含着什么,他觉得这是一种比较科学的方式。他培养学生的时候经常说,统计要讲直觉。

Xuening: 您觉得这个“直觉”应该怎么培养呢?

Zhang: 直觉怎么培养,这是个大问题(笑)。这个问题还真不好说。统计是跟应用结合比较紧的,举个比较简单的例子吧,就说因果推断这事儿。对于观察性研究来说,数据不是通过随机试验得到的,我们希望比较受培训和不受培训的人群在就业率、工资这些方面的差异,通常的做法是直接设置一个是否受培训的哑变量,然后就开始建模,估计这个哑变量前面的回归系数,但是Rubin就觉得这样做是不合适的,应该把背景变量平衡一下,就是说受培训的和没有受培训的人群的背景变量的分布要比较相似,这样才能保证比较的是受培训所带来的影响。这其中还有很多假设在里面,比如假设treatment assignment(处理分配)是ignorable(可忽略)的。如果很多问题都没想清楚一上来就直接套模型的话,你有可能都不知道是在估计什么。

Xuening: 作为光华商务统计的老师,能给学习统计的学生提一些建议吗?您认为我们的优势在哪里,鸡肋在哪里?

Zhang: 统计基本有三大块。一个就是theory(理论),就是比较讲究怎么证明定理,比如是不是收敛、是不是渐近正态;还有一大块就是methodology(方法论), 这一块不强调你去证明定理,但是在统计建模的时候要理解模型背后的含义,怎么对实际中具有不确定性的东西建模,这些不确定性来自于哪?如何减少它们?不单单是针对单个问题,而是针对一系列的相似问题应该怎么做,就是说要有一套方法论去解决问题;还有一大块儿就是application(应用),现在也比较热门,每一个具体的应用场景都有它的特殊性,这一块比较强调怎么把统计思想应用在具体问题上面,帮助相关领域的人获取需要的知识。所以作为统计的学生就要看自己究竟是喜欢哪一块儿了,我想每个人的兴趣可能不太一样,比如要是做理论那一部分,那肯定数学功底要很扎实,要研究统计量的性质;如果想做方法论的话,就要深度理解统计模型,知道它们到底在对什么建模,模型的明确假设和潜在假设是什么,模型的适用范围在哪;如果是做应用的话可能需要跟相关领域的人深度合作,需要知道统计分析怎样跟应用有机结合起来。虽然这么说,这三点应该都有所涉猎然后再有所偏重,基本的理论和统计思想都要有所了解,再一个就是都要有编程实现能力。

Xuening: 您现在的主要研究兴趣是什么,能简单介绍一下吗?

Zhang: 我现在喜欢把因果推断和小区估计结合在一起,比如针对子群体估计培训项目对就业状况的影响。对小区估计本身我也感兴趣。比如说一个全国性的调查,虽然对总群体来说样本量很大所以能直接估计一些总群体的特征,但是对子群体样本量就不够大了,就需要进行统计建模,我正在研究的是Bayesian benchmarking。还有一块就是文本挖掘,尤其是中文文本挖掘,希望能从中文文本信息很好地提取一些信息。

Xuening: 您博士毕业之后选择了回国发展,请问是什么原因促使您回国呢?您怎么看待中国未来的统计发展和统计教育?

Zhang: 当时觉得国内统计学发展也是显现出欣欣向荣的态势,虽然不像现在这么火。现在趋势是越来越重视数据的价值,而且统计也成为一级学科了,现在大数据不也喊得这么火嘛,统计肯定会有更大的发展空间。

Xuening: 可以给我们统计之都提点建议嘛?

Zhang: 我觉得统计之都挺年轻的,挺有活力;我也会关注统计之都的一些专栏。可以做一些文献回顾,但不是针对统计学术界的,而是面向应用的,可以把统计知识普及给大家,因为现在有很多人也对统计感兴趣。

发表/查看评论