COS访谈第14期：北大光华张俊妮老师

简介：张俊妮博士现任北京大学光华管理学院统计学副教授。她1998年毕业于中国科学技术大学，获计算机软件学士学位；2002年毕业于美国哈佛大学，获统计学博士学位。她的研究领域为因果推断、贝叶斯分析、小区估计、数据挖掘和文本挖掘。

写在前面的话：这学期张俊妮老师在光华开设了“商业数据挖掘”的课程，我有幸选修了这门课程，并在课程中接触到很多隐藏在数据挖掘方法背后的统计思想。2013年11月22日，张俊妮老师在办公室接受了统计之都简短的采访，并谈及了她的求学过程以及现阶段的学术研究兴趣。

0267_PHOTO Xuening: 听说您本科专业是软件与计算机，后来是怎么想到转到统计的呢？

Zhang: 不想老做编程（笑）

Xuening: 是觉得太辛苦了嘛？

Zhang: 不是，就是觉得只是编程的话没什么意思；另外就是当时正好参加精算考试，考了一门统计，觉得统计虽然学得不多但是挺好玩的。

Xuening: 当时觉得统计里面哪些比较吸引您呢？

Zhang: 当时就是觉得处理实际数据，得到一些有意思的结论，跟实际结合得比较紧。当时不想学计算机，正好数学又学得比较好，所以就想着进入这个领域。

Xuening: 听说您四年就完成了哈佛的博士学位，您在哈佛求学期间您的导师Rubin给您的未来发展和人生规划带来了什么影响？您在研究过程中有没有遇到什么困难呢？

Zhang: 影响还是蛮多的。Rubin老师认为不能单纯把统计当作一门数学，也不是一有数据就直接建模，在统计分析背后有很多的statistical thinking（统计思想）。Rubin老师做的那些最具影响的工作，不管是missing data（缺失数据）、casual inference（因果推断）还是EM，都是试图在背后思考统计应该怎样去处理实际问题。他喜欢用一些看起来可能非常简单的东西，比如missing indicator（缺失指示变量）、treatment assignment indicator（处理分配指示变量）、各个变量之间的关系，马上就能把事情说得很清楚。他比较反对上来就是一个很复杂的模型，然后就是建模、估计参数。

Xuening: 其实是崇尚简单的？

Zhang: 对，他其实是倾向于把问题讲清楚，建模到底是对什么东西建模，模型里面的变量到底是什么关系，假设到底隐含着什么，他觉得这是一种比较科学的方式。他培养学生的时候经常说，统计要讲直觉。

Xuening: 您觉得这个“直觉”应该怎么培养呢？

Zhang: 直觉怎么培养，这是个大问题（笑）。这个问题还真不好说。统计是跟应用结合比较紧的，举个比较简单的例子吧，就说因果推断这事儿。对于观察性研究来说，数据不是通过随机试验得到的，我们希望比较受培训和不受培训的人群在就业率、工资这些方面的差异，通常的做法是直接设置一个是否受培训的哑变量，然后就开始建模，估计这个哑变量前面的回归系数，但是Rubin就觉得这样做是不合适的，应该把背景变量平衡一下，就是说受培训的和没有受培训的人群的背景变量的分布要比较相似，这样才能保证比较的是受培训所带来的影响。这其中还有很多假设在里面，比如假设treatment assignment（处理分配）是ignorable（可忽略）的。如果很多问题都没想清楚一上来就直接套模型的话，你有可能都不知道是在估计什么。

Xuening: 作为光华商务统计的老师，能给学习统计的学生提一些建议吗？您认为我们的优势在哪里，鸡肋在哪里？

Zhang: 统计基本有三大块。一个就是theory（理论），就是比较讲究怎么证明定理，比如是不是收敛、是不是渐近正态；还有一大块就是methodology（方法论）, 这一块不强调你去证明定理，但是在统计建模的时候要理解模型背后的含义，怎么对实际中具有不确定性的东西建模，这些不确定性来自于哪？如何减少它们？不单单是针对单个问题，而是针对一系列的相似问题应该怎么做，就是说要有一套方法论去解决问题；还有一大块儿就是application（应用），现在也比较热门，每一个具体的应用场景都有它的特殊性，这一块比较强调怎么把统计思想应用在具体问题上面，帮助相关领域的人获取需要的知识。所以作为统计的学生就要看自己究竟是喜欢哪一块儿了，我想每个人的兴趣可能不太一样，比如要是做理论那一部分，那肯定数学功底要很扎实，要研究统计量的性质；如果想做方法论的话，就要深度理解统计模型，知道它们到底在对什么建模，模型的明确假设和潜在假设是什么，模型的适用范围在哪；如果是做应用的话可能需要跟相关领域的人深度合作，需要知道统计分析怎样跟应用有机结合起来。虽然这么说，这三点应该都有所涉猎然后再有所偏重，基本的理论和统计思想都要有所了解，再一个就是都要有编程实现能力。

Xuening: 您现在的主要研究兴趣是什么，能简单介绍一下吗？

Zhang: 我现在喜欢把因果推断和小区估计结合在一起，比如针对子群体估计培训项目对就业状况的影响。对小区估计本身我也感兴趣。比如说一个全国性的调查，虽然对总群体来说样本量很大所以能直接估计一些总群体的特征，但是对子群体样本量就不够大了，就需要进行统计建模，我正在研究的是Bayesian benchmarking。还有一块就是文本挖掘，尤其是中文文本挖掘，希望能从中文文本信息很好地提取一些信息。

Xuening: 您博士毕业之后选择了回国发展，请问是什么原因促使您回国呢？您怎么看待中国未来的统计发展和统计教育？

Zhang: 当时觉得国内统计学发展也是显现出欣欣向荣的态势，虽然不像现在这么火。现在趋势是越来越重视数据的价值，而且统计也成为一级学科了，现在大数据不也喊得这么火嘛，统计肯定会有更大的发展空间。

Xuening: 可以给我们统计之都提点建议嘛？

Zhang: 我觉得统计之都挺年轻的，挺有活力；我也会关注统计之都的一些专栏。可以做一些文献回顾，但不是针对统计学术界的，而是面向应用的，可以把统计知识普及给大家，因为现在有很多人也对统计感兴趣。

COS访谈第14期：北大光华张俊妮老师

张俊妮 / 朱雪宁

关于作者

朱雪宁