统计之都访谈第47期。2022年8月初,正是北美一年一届的 Joint Statistical Meetings。统计之都在会议间隔对雷理骅进行了采访。在本文发布之际,雷理骅已加入斯坦福大学商学院,任助理教授。本文采访者蔡占锐是爱荷华州立大学助理教授。访谈分为三部分:1,个人过往与经历;2,科研;3,其他问题与未来规划。其中科研部分涉及到一些专业学术讨论。
图 1:Lihua照片。
1. 个人与过往经历
蔡:首先,能不能请你先讲讲个人经历呢,让我们的读者对你有个直观的认识,也不需要谦虚。
雷:大家好,我是雷理骅。非常感谢蔡锐的采访,也很高兴能跟大家分享我的经历。我现在是斯坦福大学统计学系的博士后研究员(注:本文发布时,雷理骅已经正式加入斯坦福大学商学院任助理教授),导师是 Emmanuel Candès 教授1。此前,我获得了北京大学数学与统计和经济学的学士学位,并在加州大学伯克利分校获得博士学位。
后文 Berkeley 即为加州大学伯克利分校(University of California, Berkeley)
说到个人经历,我从小就比较喜欢数学。我在小学开始接触数学竞赛,到高中的时候进入了华师一附中的竞赛班,从高二开始全身心的投入准备竞赛。后来我获得了 CMO (中国数学奥林匹克)的金牌并被保送到了北大。
在保送结束到开始上大学之间, 大概空出了半年的时间,在这段时间里我进行了一些很有趣的探索,也第一次接触到(医学)统计。我的母亲在医院工作。她在临床很多年,发现很多卧床很久的老年病人会得一种病,叫做压疮,这种病会对老年人的生活质量产生很大影响。母亲阅读文献后发现,营养支持是避免产生压疮的一个很好的方法。她当时是医院的护士长,所以一开始亲自动手,收集到了多达300例非常高质量的病例数据。当时的我还不能理解这件事的意义,现在回头看,觉得这是非常了不起的事情。之后医院的其他同事也加入进来。在我读高三的时候,数据量已经达到了1000例以上。自然而然的,母亲想对这批数据做一些统计分析。比如研究不同的指标对压疮的影响。那时的我还不太明白统计到底是什么。虽然我在高三的数学选修课本里简单接触过一点统计知识,但大都是一些简单的结果,并不理解为什么会有那种形式(比如正态分布,列联表等)。但母亲觉得我是学数学的,对我来说统计应该也不难,于是她给了找我一本医学统计的教材。这本教材里有许多医学统计要用到的方法,比如卡方检验。我运用 SPSS 软件,跟着教材上一步一步的操作,最后生成了一个非常漂亮的报告。这对于当时还在高中的我还是很震撼的。当时突然一下,我觉得统计这个学科好像可以把我们学到的这些数学公式,变成一些在现实中非常有用的东西。于是,在还没有进大学的时候,我就基本决定未来是很想做统计的。
蔡: 进入北大之后,肯定学习任务也是相对繁重的,你能讲讲整个本科阶段你自己的个人的时间分配,是如何学习的吗?
雷:其实在前面两年半时间,我的大致时间安排是这样:首先一大部分时间是用来学习专业课,一方面是我觉得这些课程很有意思,另一方面也确实在北大数院还是有压力,所以说还是要好好学习;另外的一大部分时间,我在北大咨询学会做了一年半的咨询。这是由于一开始我没有打算出国,也没有打算做学术,而是非常想进入业界。在这过程中,我在一个公司实习做过期货交易,还做了⼩半年的市场营销,帮⼀个公司研究⼀个新产品的可⾏性。另外,由于对经济金融感兴趣,我还辅修了经济学双学位。但是在大三下的时候我意识到,其实这些跟商业、金融、经济这些工作可能跟我的性格不是那么的匹配,虽然我很喜欢,但我还会有些犹豫是否要把它们作为职业。与此同时,我在做这些事情的过程中接触到不同的统计,比如说在做期货交易的时候接触到时间序列,在做市场营销的时候要分析问卷数据。真正做数据分析的时候需要考虑的很周到,而当时我发现,以我在本科课本上学到的那些东西是远远不够的。所以从那时候开始,我觉得我应该更深入的学习统计这个学科,去走到前沿去看看统计学术圈的人们到底在学什么,然后我再决定是否要回到业界去使用这些统计知识。所以从那个时候开始,我才临时准备出国准备读博士,这大概其实是我的时间分配。
从某个角度来说,我的经历确实是走了弯路。但是回过头去看,我会觉得这段经历非常的宝贵。虽然我现在做的研究很理论,但很多研究的背景其实是源自于经济学。在那段时间里, 我选课加旁听,大概上了七,八门CCER(北大经济学双学位)的课。这个过程让我了解了很多经济学家去思考世界的方式。我当时也跟MBA一起上过统计的课。他们对统计学在实际中的应用有很强的直觉。这个过程让我对统计的应用有了更深入的了解,也对之后选题做理论研究有很大帮助。
蔡:最终为什么选择了统计的方向?选择了 Berkeley 并选择了 Peter 2作为导师?
雷:这也是一个很有趣的故事,在我大四上学期的时候,申请季结束之前,Peter 正好来北大和清华做了三天的讲座。那个时候我跟陈老师(陈松蹊老师)3做的科研正好用到了 Peter 在六几年写的一篇文章。当时看到 Peter 要来就很高兴,想找他聊一聊,于是那几天我就一直在跟着他。Peter 人非常好,真的就是坐下来跟我、陈老师,还有涂云东老师4,一起聊了差不多一个小时时间,他提供了很多非常好建议,我们非常感谢他。后来我就给 Peter 写邮件,说我很想申请Berkeley,是否可以?也把我跟吴岚老师5一起做的科研的幻灯片发给了他。没想到他在 10 月份左右的时候回复我了,他说我还记得你问我的问题,也看了你的幻灯片,觉得挺好的,欢迎申请 Berkeley!虽然我不在招生委员会,没有什么话语权,但如果你来的话一定要跟我说。所以这也是一种非常奇妙的缘分吧。
蔡: 能讲讲在北大,在 Berkeley,在 Stanford 时有意思的经历吗?
雷:我在大四下学期的时候,陈松蹊老师组织了一个短期课程。这个短期课程一般邀请一些在美国工作的比较有名的中国统计学家。我参加的时候可能是第一届或第二届(后续补充资料:课程是第三届)。我记得当时有朱冀老师、邹辉老师、陈嵘老师、张存惠老师、金家顺老师、姜铁锋老师、冯洋老师和王永雄老师,让我受益匪浅。其中邹辉老师在讲他的研究时,他讲到了复合分位数回归(Composite Quantile Regression)。当时他发现了一个很漂亮的性质,就是复合分位数回归非常地稳健,它比普通的分位数回归更加稳健。基本的想法是,我不去拟合的某一个分位数损失函数,而是同时拟合很多个分位数损失函数,然后加起来。这些分位数可以是5%,11%,95%,19%等等。当时邹辉老师提到,虽然这个方法很稳健,但是目前还没有找到一个很快,很稳健的算法。因为这个$L_1$
损失函数,它不像$L_2$
的损失函数,也不像Lasso。复合分位数回归本身不加惩罚项,但邹辉老师比较感兴趣的是加$L_1$
惩罚项的算法。当时有一个发现是,对于Lasso比较适用的算法,像坐标下降(coordinate descent),对复合分位数回归的效果并没有那么好。当时正好我上了席瑞斌老师的分位数回归的专题课程, 而且对最小角回归算法(Least Angle Regression,LARS)非常感兴趣。我就在想,既然如此,我们可以把LARS用在复合分位数回归上吗?答案是肯定的。邹辉老师大概是周一给的讲座,然后我在周五之前把这个问题基本解决了。于是我就赶快去找邹老师,就说这个问题好像有一个比较复杂的LARS算法。我说理论上,这个算法本身应该是推出来了,但是可能还需要一些时间把它写成代码。邹老师当时觉得很有意思,在他回美国以后,我还能跟他继续保持联系。后来把代码写出来以后,发现效果还真的不错。当然,很可惜的是因为后来很忙,就没有把这个写成论文。我通过这种方式,了解了一些比较前沿的统计问题。所以对我来说,本科的三位恩师就是吴岚⽼师、陈松蹊⽼师和邹辉⽼师,因为他们坚定了我接下来⾛统计这条路的决⼼。
其实很多机缘巧合,我觉得是缘分,而且我很珍惜这样的缘分。陈老师当时组里一直在做消费者物价指数(Consumer Price Index, CPI),我觉得那是非常高质量的统计工作,因为它不仅要牵扯到统计的方法论和理论。我们知道陈老师人非常强。经常在课上会⼿推⾮常复杂的公式,但是他在应用统计方面,也同样非常扎实。在跟他做CPI的时候,我们当时为了了解CPI,甚至去读了国家统计局CPI的册子。并且我们见了国家统计局的人,去跟他们聊CPI是怎么建立的,我们试图去理解什么样的数据可以对CPI的预测⽐较好。当时学习了很多这样的细节,就使得我意识到统计这件事情并不只是把理论推出来,有很多问题也许从理论上看上去并没有那么光鲜,但实际上它的用处很大。最后我的本科毕业论文写的是很简单的ARMA(Autoregressive–moving-average)模型。但在模型的MA的那一项里面,系数是一个变参数(varying coefficient),它可能取决于别的变量。当时的想法很简单,就是CPI肯定是一个这样的ARMA模型,但是它的系数是在不断变化的,因为那个系数它会决定你的自相关性,⽽这个⾃相关可能取决于其他的变量,⽐如说进⼝额、出⼝额等,问题是我们能不能我们把它的系数建模成这些变量的⼀些函数,从而去估计这个函数。一开始我们只是有一个关于这个模型的简单想法,另一方面也正好有个机会可以让我来学习非参数统计的知识,⽐如核函数估计以及⼀些弱相关下的渐进理论(因为时间序列数据有一些弱相关),所以当时无论从数学上还是从应用上都学到很多。
除此之外,我和吴岚老师也做了本科科研。最初做的是和金融数学有关的方向,关于实物期权的研究,其实就是用期权定价的方式对公司定价。这个想法很简单,就是选择卖掉公司获得收益,还是继续经营公司来获得未来的现金流,并折现到现在。所以这个就跟期权本身很像,一个是未来价格,一个是行权价格。但现在对公司定价来说这两个变量都变成了可能取决于其他很多因素的变量。最初我们会读一些数理金融方面的内容,但后来我想能不能⽤中国 A 股市场的数据估计⼀下这个模型,看看能不能从中发现⼀些有趣的现象。于是我就想把它做成一个统计模型,其中一块和公司经营有关,另一块和当前市场有关,然后我的输出预测就相当于两个线性模型的最大值。这个⽅法看上去和统计⾥最基本的线性模型⽐较类似,但其实它们有本质区别。⾸先这个模型就是⾮凸的,在计算上就有困难,证明渐进理论也不能直接套⽤线性模型的理论。其次是这个模型并不总是可识别的,两个线性组合之间有夹⻆的时候才能识别出来。不过正是因为这些困难,我去系统的学习了经验过程(empirical process),同时也让我意识到不是所有的统计模型写下来就可以估计。
在 Berkeley 的话我觉得和 Will Fithian 6的合作很有意思,我想我们之后聊到研究的时候会再聊到这段经历。
蔡:除了学业外,生活也很重要,你的兴趣爱好是什么?
雷:其实我是一个比较宅的人,不过在加州也不会太宅,因为加州有很多很有趣的户外活动,⽐如说徒步旅⾏或者滑雪。再就是打桌游、看剧,因为加州中国留学生非常多,所以经常能叫到⼀⼤帮⼈开⻋去滑雪、烧烤、打桌游。我本人并没有特别多的爱好,所以基本上就和大家一起热闹。到后来,尤其是疫情中,就主要是和⽼婆⼀起看剧以及陪我们的⼩狗玩。
2. 研究
蔡: 能仔细介绍下你主要研究的几个方向吗?
雷:在读博士我的研究方向大概有三个。首先,最主要的研究方向是多重检验(multiple testing),关注的焦点在FDR(False Discover Rate) control。第二个方向是因果推断(causal inference)。第三个方向是网络聚类(network clustering),我的研究焦点主要在谱聚类(spectral clustering)。在博士时候还有一个方向是优化。这个主要是跟 Michael Jordan7一起做的。
在博士后期间,我开始进入到一个比较新的方向,叫conformal inference。这个目前可能还没有一个很好的翻译。这是个非常新的课题。在我进入到这个领域的时候,它还只能算一个研究课题,但现在过了三年以后,已经算是一个研究领域了。目前这个领域有非常多的人,大家非常有创造性的在思考conformal inference这个框架能用到什么问题上去。我从博⼠到博⼠后过程中,也有幸认识到Guido W. Imbens8,然后做了一些计量经济学的工作。
蔡: 现在很多学生本科时就有所谓的“本研”,在你回头看来,你觉得重要吗?你是如何看待的?
雷:我觉得非常重要。就我刚才说的几个例子,一个是跟吴岚老师的例子,它就让我意识到要怎么从一个实际的问题出发。这个问题本身它是⼀个概率的问题,但是我逐渐地把它转化成⼀个统计的问题,这个统计问题就变成了⼀个新的问题,我就会去想怎么去估计?怎么去找⼀个好的算法?怎么去做实验模拟?怎么去推理性质?这些过程让我能独⽴地从⼀个问题⾥⾯看到另外⼀个问题,然后把它转化成我自己的一个研究方向或者一个研究课题。
蔡:相当于有一个完整的训练提升的过程。
雷:对,这个过程我觉得非常重要,因为它能让你看到科研的每一步。当然作为本科生,我们可能每一步都做得不尽人意,但是对整个过程的全貌的理解,我觉得是非常重要的。像跟陈老师的科研让我理解到在应用中有多少巧妙(tricky)的问题,以及怎么跟不同领域的专家去沟通、去合作。这个过程也是我在本科科研的时候学到的。因为到后来发现,这些东西其实是很重要的。比如做一些理论的工作的时候,如果你继续用非常理论的方式去跟科学家沟通,就会发现他们没法理解你到底在说什么。你跟不同领域的科学家合作,是希望得到很有趣的问题,并实际解决一些问题,更希望能在这些不同的领域里面有一些实际的影响。但是如果沟通不力,合作起来会比较困难。
蔡: 你在博士和博后阶段的工作有很多,你是如何寻找到这样有意思的题目的?解决这些问题你又遇到了哪些困难,或者说对你都很简单?例如与Will Fithian关于FDR控制(FDR control)的合作?是否和选择Candes做博后有关?与丁鹏9 (因果推断方向),Michael Jordan (优化方向)的合作又是如何开始的呢?
雷:统计一个特别好的地方在于,能研究的问题真的很多,相信大家应该都有这样的感觉。统计里面一个常见的说法是:statisticians can play in everyone’s backyard or even front yard。所以我们面临的问题很多,我们可以去做的问题也很多。我觉得很多时候其实是看机缘巧合。除了我开始跟Peter J. Bickel和Noureddine El Karoui做的高维M统计量(High Dimensional M Estimator)10,是我当时觉得这个很感兴趣,Peter鼓励我去做这个课题;博士期间基本上其他大部分课题都是我无意中找到的。但这个“无意”也不是说就真的无意。
蔡:也是需要一些积累的。
雷:对。其实我很喜欢去上老师们开的专题课程。我觉得这是我们接触新的科研领域的一个很好的方法,因为一个新的助理教授(AP)来到这个学校以后,他会想招学生。其实很多系里都会支持新来的助理教授开一个专题课程,讲自己的研究领域。在这个专题课程上,你可以很快的接触到一些最前沿的东西。对于新的AP来说,很有可能他做的东西还没有构成一个研究领域。相关的研究可能还在初期,但是因为他们做的很出色,所以他们就被招进来了。其实这个专题课程更像是在跟学生在探讨研究,在这个过程中他们也让⾃⼰的思维更加完善。比如说我最先接触到多重检验,是因为上Will Fithian的这个专题课程,叫Selective Inference。其实一开始我对Selective Inference的理解非常狭隘,我一直以为它就是说模型选择之后去做统计推断。我也知道早期的一些工作需要用到很特殊的参数模型的性质,比如说我们做LASSO的 Selective Inference就需要假设一切都是高斯分布的。但上了这个课以后才发现,首先Selective Inference是一个很大的领域,比如FDR control就是属于它的。其次Post Selection Inference,包括基于Differential Privacy的Adaptive Data Analysis,也是⾪属于Selective Inference的。我在上课的过程中逐渐发现这是一个非常有趣的领域。当时Will Fithian讲这个课的时候也借⽤了⼀些Emmanuel在当时上的300C的课件,那时候也差不多是Emmanuel刚刚进入到这个领域不久,他在Stanford开了一门课叫300C,讲很多控制多重比较谬误(family-wise error rate),伪发现率(FDR)的东西。所以当时我有机会接触到了这样一些课题,当时我就觉得FDR是一个让我特别感兴趣的领域。于是我就利用到这个机会,在做最后结课项⽬ (Final Project)的时候,我花了很⻓的时间,当时我甚⾄停掉了我⼿⾥的研究。
蔡:和Peter的研究?
雷:对。当时我也停掉了其他正在想的问题。当时那个阶段应该是第二年初期,那时候跟Peter的研究也陷⼊到⼀些瓶颈,当时就想既然如此,我就好好的把时间花在结课项⽬上,看能不能做⼀点东西。 其实当时我就选了⼀个很⼩的切⼊点,想法来源于Rina Barber和Emmanuel Candès提出的Knockoff⽅法。原本的Knockoff是⽣成⼀份Knockoff变量,然后把数据成⼀个⼆元p值 (如果需要,所有的p-valve都可以替换成p值)。它的好处就是, 对于线性模型,你只需要N⼤于等于2P,因此对⻓宽⽐(aspect ratio)的要求很低,但是它会让p-value的精确度不是很高,就会导致一个问题。这个问题比较tricky,但简单来说它会有个阈值现象(threshold phenomenon),就意味着如果你想把FDR控制在0.1,你要么是拒绝十个以上,要么什么都不拒绝,但是实际情况下,很多时候我们大概拒绝五六个左右。那么这种情况下可能就没有办法给出一个很好的结果。所以那时候我就想做一个所谓的多重Knockoff(Multiple Knockoffs),当然现在已经被人做出来了。当时我也做出来一些结果,但做出这个结果以后,我就给Will看,他觉得很有意思,于是我们从我的结课项⽬⾥提取了⼀部分结果,把Knockoff背后的⼀个叫Selective Seqstep filter推⼴了⼀下,写了我们的第⼀篇⽂章,被ICML接收。我们只是谈一下这样一个推广,就是说我们不再把filter用在Knockoff上,我们就用在传统的p-value上,看我们能得到什么。我们做了这个项目以后,很快就意识到其实我们做的事情可以解决一个很重要的问题,叫adaptive FDR control。这个项⽬灵感就在于,在很多基因数据上,我们⽬标是做多重检验试图并控制伪发现率,但是已有的⽅法忽略了很多额外信息(Side Information)。这些额外信息可能来自于别的实验,或者来自先验知识(prior knowledge),我们怎么把这些先验知识纳入到我们伪发现率里面,使得它的功效(power)更高呢?我记得那段时间跟Will Fithan可能是每周都聊一次,甚至聊两次,一聊可能就聊一个小时。在不断的这种探讨过程中,我发现当年Final Project里面一个想法可以变成一个非常有力的工具。最后就我们写了Adaptive P-value Thresholding (简称AdaPT)这篇⽂章,想法非常简单,就是说我们有p-value。传统的方法就是直接用p-value做检验,但现在我们不是直接用p-value做检验,而是我们先隐掉一些信息。就是我们只给研究者看p和1-p的较小值,以及其他所有的额外信息。非常神奇的是,你只要用这些信息去估计任何的模型,哪怕这个模型是错的,是misspecified,最后在一些标准的假设上仍然可以保证FDR 控制,这就是我和Will写的那篇JRSSB11。所以我后来一直在关注伪发现率上面的工作。我觉得非常有趣,因为当时它让我意识到,原来这么一个事后看起来非常简单的trick,它可以有效的把统计检验和机器学习结合在一起,并且它的理论性质非常的强,就在于它所有的control都是有限样本下成立(finite sample),没有任何asymptotics, 它允许模型有任意的误设(misspecification)。但与此同时,如果你的模型是correctly specified,它会让你的功效比较高。而这个工作本身其实也奠定了我后面所有工作的一个理念,就是无论是哪个方向,我都比较喜欢model free,distribution free,以及有限样本下的保证(finite sample guarantee)。我并不是觉得一定要有有限样本下的保证,而是觉得有限样本下的保证的这些方法,一般来说,有个特点,就是它一定会简单。因为说实话,很难想象一个非常复杂的方法,最后能给你发现有限样本下的保证,而且很多时候,背后的数学也会很简单。这个“简单”并不是在于它很容易想,它有时候可能很难想,但是数学证明都不会很复杂。
JRSSB: Journal of the Royal Statistical Society: Series B (Statistical Methodology)
蔡:所以这个是不是和后来去 Emmanuel 那做博士后有关系?
雷:对,没错,其实关系非常的大,就在于我进入到这个领域以后,我就会去开这个领域的会。其中有一个会叫 WHOA-PSI ,这个会一直在 Saint Louis(圣路易斯)开。这个会开了很多年,但是现在很可惜,因为疫情停了,不过我们有一些延续。
WHOA-PSI: Workshop on Higher-Order Asymptotics and Post-Selection Inference
这个会,它聚集了很多做Selective Inference和Higher-order Inference的人,其实是两个领域。Todd Kuffner从第一届开始就一直在组织,接下来的每一年他都在,至少是一个主要的组织者。这是2016年开始的。这个会对我其实帮助非常大。首先这是一个小规模的会议,相当于把这个领域里面所有人,以及一些可能跟这个领域相关的人都请过来了。所以在会上你可以直接见到所有这个领域里的人,大家做的课题也相对来说比较接近。在这个过程中,我也认识到了很多人,其中包括Emmanuel。其实我一开始决定做博士后的时候,我觉得Emmanuel是我最想跟的人。当然,那时候我也不确定Emmanuel会不会带博士后,也不确定他会不会对我的研究感兴趣。但有幸的是Emmanuel也参加了这个会,⽽我在会上介绍了AdaPT的⼯作和其他关于伪发现率的⼯作。Emmanuel对我们的工作评价很高,所以当时我在提出我想跟他做博士后的时候,他直接爽快的答应了。
蔡:那么其他的一些工作,比如与Michael Jordan的优化领域的合作又是怎么开始的呢?
雷:跟Michael Jordan的合作其实也是来自于一个巧合,一开始我在选了Peter作为主要的导师以后,一般来说,在Berkeley很流行的是再找一个co-adviser。一开始我还没有一个很明确的想法,但那时候我上了 Michael Jordan的Theoretical statistics。这门课是我们的核心课程。Michael讲得非常的好,在那个课最后期末我考得还比较好,所以Michael主动联系了我,问要不要聊一聊。后来我跟Michael聊了以后,他就邀请我去他的组会。然后我发现Michael的组会非常的有意思,它跟传统的组会不太一样。因为Michael有很多的学生,如果大家都介绍自己的工作,会显得很杂乱无章。Michael选择了一种非常不常见的方式:他会让大家一起来读书,而读的内容很有可能是组里没有任何人在研究的东西。比如说我第一个学期去的时候,他竟然在读Mostly Harmless Econometrics12,是经济学里面非常经典的教材,第二个学期就要读Bradley Efron的Large-Scale Inference13,就是FDR。所以我说这是也有一些机缘巧合,我那时候感兴趣FDR,然后正好上了Will的课,系里招了Will过来,然后Michael组里又在读相关的文献。
那个时候我在跟Michael头脑风暴想研究课题,一开始Michael给我的题目是做BLB(Bag of Little Bootstrap)。是他之前做分布式统计推断(distributed inference)的一个想法。当数据分布在很多机器上的时候,这时候你想做自助法其实不容易,因为他们的通信成本(communication cost)很高。那我们有没有办法在局部做自助法,然后最后再统一起来做置信区间呢?因为当时做分布式统计推断的时候,大部分还是在考虑估计,很少人会考虑统计推断的问题。所以当时就有一个方法叫Bag of Little Bootstrap,BLB。Michael想让我研究一下这个方法的性质。起初我跟他做第一个框架,推High-Dimensional Edgeworth expansion,跟我现在的研究方向差别很大。
我第一个暑假大概花了一两个月的时间读一本非常经典的Edgeworth expansion教材,然后试图去学习那些证明,他们的证明都是假设维度是个常数,但是实际上那个常数是关于维数指数上升的,所以没有办法直接使用。我花了很多时间试图把证明给推广到高维情况。后来推出一些很奇怪结论,比如说它这个维数(dimension)是 n的2/27次方的时候,确实能得到一些结果,非常奇怪。当时我也写下来一个大概三四十页的笔记,但是我觉得,好像我也并没有直接想把这篇文章写成一篇论文的。但与此同时,我正好第一年的下半学期我上了Ben Recht14的凸优化。同样也是因为结课项目,当时我也是想好好地研究一个和variance reduction相关的问题。这个问题相当于把蒙特卡洛里面被研究很多的方法用在了优化里面,达到了一些很好的性质。于是当时我就在想能不能沿着这个方面做一下。当时找的切入点非常小,我就想证明SVRG15这个算法也能应用于非强凸优化问题。
雷:原来论文的理论只有对强凸(strongly convex)目标函数的结果,但是发现即便非强凸效果也很好。我就在想说有没有办法能证明它对非强凸的结果好?结果发现始终做不出来。但结果很有趣的是,最后我发现了一个问题,大家在讨论优化算法的时候,一般来说从一个初始点开始,运行一万步,我去看这一万步之后的收敛速度。但我发现如果把一万这个数变成一个有某均值的几何随机变量, 就会有一些很奇妙的性质。后来我就通过这个性质设计了一个新的算法,其实就是把SVRG改变了一点点。于是我发现它不仅能对非强凸目标函数可行,并且还能得到一种adaptivity,就是说如果你的目标函数是强凸的,你能直接达到那个收敛速率,但你不需要知道它是不是需要强凸性。后来我管这个方法叫geometrization。然后我就跟Michael说了这个想法,Michael觉得这个想法非常的有趣。说实话,直到现在我也不能完全解释为什么这个就可以实现。
蔡:是怎么发现的呢?
雷:这就类似打数学竞赛的时候会要解决一些很难的题目,所以会去想一些非常奇怪的解法。当时也是,我在想能不能反推,我需要怎么设计这个算法,使得我能得到结果?最后有一天突然就发现了几何随机变量的性质,它用到的性质并不是我们统计熟知的性质,是一个很独特的性质,大概就是说如果有一个序列,首先去看它的一阶差分(first order difference)。如果说我看的Index是一个几何随机变量,它的一阶差分的期望会等于它的最早的点减去它当前点。 这个在优化里面是一个叫telescoping的技巧,就是当你有类似于对$A_k - A_{k+1}$
的表达式,把它们都加起来,就会变成$A_0 - A_{k+1}$
。但是在优化里面,$A_{k+1}$
导致了很多麻烦,因为$A_{k+1}$
其实不存在。但geometrization可以一定程度上把它变成$A_k$
。所以这个很看上去是个很小的工具,但其实有很多的应用。我跟Michael说了以后,于是我们写了第一篇文章。后来很快我们就在想,能不能对非凸(non convex)优化问题也有用,在当时的最优方案(state of the art)是说,对于有限样本优化问题,如果你要最好的准确性的话,非凸问题最好的做法还是SGD(Stochastic Gradient Descent),或者一些加速SGD算法。理论上对于⽬标准确率的次⽅数是⼀直都没有变过,但我们通过这个⼯具才可以发现可以做得更好。原本一直是,比如说如果你想达到梯度的期望小于等于$\epsilon$
,之前的理论速度一直是$1/\epsilon$
的四次方, 其他的加速SGD算法只能在一些比较特殊的情况上面提升四次方,但一般情况下它不能提升四次方。而我们当时就通过SVRG和我们这个工具发现了一个10/3次方的结果。很快大家发现,这不是最优的,大家发现三是最优的,这也就发生在我们的论文发出来半年到一年之内,因为大家在这个领域其实真的非常强势。一旦发现这个不是最优的,有了这样一个证据以后,⼤家就会很快意识到怎么样去继续推进研究。
蔡:这个很有意思呀。
雷:当时的Michael对优化问题比较感兴趣,但是他在近几年转向了经济学。那段时间,优化就是他一个主要的方向,我的研究正好跟他契合了。我想既然这个东西这么有趣,我们就一起工作一下。除了上述的非凸问题,我们还做了一个关于adaptivity的工作。所谓的adaptivity是指一个算法能在不同的假设下运作,比如说对强凸,对非强凸;对高准确率,对低准确率,对有限样本,对无限样本。在实际情况下你永远不知道你在哪个假设条件下,但当时文献里针对不同的假设有不同的算法。所以我们在想,能不能设计一个算法,这个算法尽可能少的依赖hyper parameter,使得它能有更多应用。所以我们就发现最后geometrization这个技巧⾮常的有⽤。大概我就以这样的方式跟Michael合作了几篇优化领域的文章。
蔡:非常有趣。和丁鹏的因果推断方向的研究又是如何开始的?
雷:这个我非常感谢丁鹏,还有和他同期进来的几个教授,包括Avi Feller,Will Fithian,和当时来这边的一个博士后,叫Alexander D’Amour。他们是Berkeley 因果推断的第一批人,当时在Berkeley搞了一个因果推断的读书小组。起初也是大家一起来读书。我们当时读了很多课题,⽐如说第⼀个学期在读⾼维因果推断,接下来读了⼲涉作⽤下(interference)的统计推断,最优试验设计(optimal design),因果推断哲学,因果推断经典应⽤,半参数模型,⾯板数据。这个其实让我学到很多,也是让我因果推断入门一个最好的方式。因为因果推断其实是⼀个很⼤的领域,⼊⻔不是那么的简单。在我刚开始读博⼠的时候,因果推断其实并没有那么⽕。尤其是当你刚开始学potential outcome的时候,会觉得很难理解。但当时丁鹏、Avi Feller, Will Fithian,还有Alexander D’Amour,以及后来加⼊的Sam Pimentel构建了⼀个⾮常好的学习环境。我们每周都会有一个人讲一篇论文,一共会有两个小时的时间。演讲者并没有很大的压力,他其实只准备30~40分钟,而另外一个半小时间我们可能都在聊天,一直在讨论。我们会抓住一些点拼命地去讨论,去看为什么要这么做,怎么去论证。比如说为什么我们要考虑finite population analysis,super population 和finite population之间到底有什么区别?我们怎么去理解IPW estimator,怎么去理解ATT(Average Treatment effect on the Treated)、ATE(Average Treatment Effect),怎么去理解最优试验设计和randomized design,它们的核心区别,以及怎么去理解各种不同推断框架下面去定义估计量,它们会有什么tricky的地方。所以当时他们构建了一个很好的环境,可以让我们沟通,可以让我们去深入的理解一个问题。
在这个过程中,我们有连续三个学期都在讨论一个问题,叫overlap,或者叫positivity。简单来说,在任何一个观察性研究(observational study),如果你想做因果推断,一个必要的条件是说,任何一个加入到你的研究里面的人必须得有不小的概率,分配到到实验组和控制组。因为如果说有一批人永远都只会被分配到对照组(或者实验组),这时候你就只能通过一些extrapolation去推断这些人的counterfactual。你看,大部分论文都会假设positivity或者overlap,那到底我们能不能检验?到底它有什么implication?它是不是一个很强的假设?有很多时候观察性研究,第一个假设就是strong ignorability,第二个假设就是positivity。大家都会花很长时间去辩护 strong ignorability,但很多时候大家都会忽略positivity。最多给一个就是propensity score的图,去看一下有没有极端值(extreme value)。于是我们就在想能不能系统地研究这个问题。我们合写的第一篇文章发表在JOE上16,主要研究了overlap假设的implication,发现这个假设在很多情况下很强,并不容易满足。在2017年我们发现这些implications可以用来检验overlap。不仅能检验,而且不需要任何对数据分布的假设(distribution-free test)。于是我们又合写了第二篇文章,到现在都还没有发出来,只放在我的网站上了17。
JOE: Journal of Econometrics
蔡:是如何做这个检验呢?
雷:其实是一个很奇怪很奇怪的想法,可以应用任何机器学习算法,但不需要依赖于估计量是相合(consistent)的,甚至允许统计量特别差。我们可以把overlap assumption看成一个原假设。比如说这个propensity score是在0.1~0.9之间,但这是一个非常奇怪的复合原假设,因为它的原假设空间非常大。但我们发现,如果说你能知道这个东西的意义,这个本身它太能被检验,但如果你知道它的implication,也许是可以被检验的。于是我就用了一个很奇怪的想法,把这个问题跟很多其他的问题,比如说序贯检验(sequential analysis), 秩检验(rank tests),还有分类(classification)联系起来了,用那边的工具得到了这边的一些检验。这些检验需要的唯一假设就是数据独立同分布(i.i.d.),而不依赖任何其他关于数据分布的假设,并且在有限样本下有效。
蔡:需要做样本拆分(sample spliting)吗?
雷:需要,样本拆分就是可以灵活使⽤机器学习的原因。但是使用机器学习之后的一步其实就比较非标准,也就是我们文章的核心贡献之一
蔡:非常有趣,我一定要去读一下这篇文章。
雷:也提醒了我们要赶快把它上传到ArXiv。目前只有一个在我个人主页上的版本,是因为之前找工作的时候,想提前把它上传到ArXiv。
3. 其他问题与未来规划
蔡: 博士后的经历你觉得是必要的吗,你的收获又是哪些?其实你在读博士的时候已经很有名了,当年在job market已经非常受欢迎了。
雷:这是一个很好的问题。其实我在博士快毕业的阶段,我问过很多人这个问题。以及后来在我读博后的时候,很多人问我这个问题。当时我也是在犹豫,是上job market,还是去读博后。一开始最直接的契机是,我去找Michael Jordan聊,他非常推荐我去读博后。他说这不是针对你一个人,我会建议我所有的学生如果可能的话都去做一个博后。他的理由是你可以拓宽圈子,接触更多研究方向,让整个研究变得更成熟,与此同时可以在这个过程中产生一些新的想法,让你在找工作的时候更加突出。这是最开始的契机,但说实话,这个契机可能还不能完全说服我,于是我就找了很多助理教授聊。于是我发现一个很有趣的现象。我会问他你们如果有后悔的事情,后悔的是什么?我从至少五个人那里听到了这样一点,我最后悔的是没有读博士后。
蔡:一想到没读过博后,梅花便落满了南山。
雷:我后来就问他们为什么。他们的观点有很多,其中一个点是说,你从博士到AP的这个时候,会有一个很长的过渡。这个过渡期可能会耗费你很大的精力,会让你的研究有个断层。博士后期间,你相当于多了三年或者两年的时间。这段时间你可以积累很多其他的想法。这些想法你未必会当时就开始做。但是等你真正成为AP的时候,你可以直接把这些拿回来。如果忙得不行了,你至少还是有题目可以做的。尤其是带学生的时候,也许这些问题可以成为你和学生的一个开始的项目,之后继续再往前推进。但如果没有博士后,并且积累的课题不够多,也许一开始会很艰难。
蔡:是的,所以博士后让你的研究变得更加丰富了。
雷:但是后来我自己读博士后了以后,我又发现第三个好处。这个好处是我特别想推荐给大家的。进入学术界之后,其实我们并不止步于拿到这个工作。在未来,我们的学术生涯可能非常长。而在很多时候,我们需要senior people的支持。比如说我们申请一个基金,我们去申请奖,我们去开会,我们去找合作,这时候如果有senior people的支持,我们会轻松很多。但你想,什么样的人会成为终身支持你的人?其实说到底,就是我们的博士生导师,我们博士后导师。我们的系主任有可能会换,但是导师永远不会变。而在读博士期间,我们有可能有一个或者两个导师。如果你有一个导师,那么读博士后会让终身支持你的人数量增长一倍,如果有两个博士导师,你就增长50%,无论如何你都得到了一个显著的量的提升。这个可能会为未来的事业发展也带来很大的好处,无论是从比较实际的基金奖项,还是从未来的精神支持,或者科研支持上,都会多好多。
蔡:非常有道理!我有一个博士导师,两个博后导师,直接增长了200%!哈哈。
蔡: 下一个问题就是关于合作的。你的合作者很多,文章也很多,如何在科研中寻找好的合作者?有什么经验?
雷:我觉得这个问题可能对senior的人来说更难回答。但其实对年轻人来说,对博士生或者博士后来说,没有那么难的。原因是当我们找合作者的时候,我们找的很多合作者本身就比我们senior了。而他们愿意跟我们合作,其实已经是一个很好的信号。所以这个时候往往我们找到很多的合作质量很高,当然也有例外。但我觉得,如果这个人他对待研究比较认真,有自己明确的品味,并且与在你合作的时候,能比较平等地对待彼此,这就已经是个很好的合作者了。
因为从学生角度来说,我们更多的是在做合作过程中去学习更senior的一些人思维跟思考问题的方式。所以我觉得这个倒没有必要特别注意什么。简而言之,应该去找一个你觉得你会尊重,和你会想成为的人成为合作者。如果他是一个对人比较友善,对人比较平等的合作者,整体来说我认为都没有问题。
蔡:在选择研究方向的时候,你是会更喜欢选择一些有开创性的挑战性的题目呢,还是会选择一些可能看起来挑战性不高,但是也会有一定意义的,肯定能做出来的题目呢?
雷:这是个好问题。在大部分选题的时候,其实我会选择一个相对比较简单的切入点。至少让我进入到这个领域,了解这个领域的问题和它的难点。但接下来,整体上我会比较倾向于一些比较有挑战性的问题,但至于它能不能做出来,其实不好说。因为当你知道的时候,它就一定可以做出来。所以我觉得整体来说,我会去尝试那些有挑战的问题。但是我用来对冲风险的方式,就是我不在一棵树上吊死,我可能同时在想两个或者三个课题。这可能也跟我研究的风格有一些关系。就像我刚才说的,因为我比较喜欢这种有限样本下成立或者distribution free,就在于它往往难在想到那个idea,但是idea到了以后,其实无论是证明,还是编程,还是实际应用都没有那么地难。所以我就会给自己同时两到三个项目在想。如果说真的有一块就很长时间想不出来,我就把它舍了,不再继续摸索。但是我会在一个地方记下来,记下来我现在所处的点,以及我接下来想解决,但未能解决的点,也许以后还能重新捡起来。其实这个时候放弃它也没关系,因为你与此同时还有一到两个别的,如果把整个节奏调整好了,仍然可以非常开心并且不会觉得太可惜。
蔡:任何一个研究领域都有其开始,发展,成熟,衰落的过程。你是如何应对你的研究领域的变化的?
雷:这是很好的问题。我觉得现在是一个统计非常火的时期,所以任何一个领域都会发展得非常快。像因果推断,在几年前我们刚开学的时候,那时候人还很少。现在可以说是,大家都会在或多或少做一些因果推断。我应对这个的方式是,一开始在这个领域发展的时候,我会试图去多跟这个领域来沟通,去读最新的论文。因为那时候还能跟得上,因为论文不多,所以我就会尽量地去选一些比较有开创性的论文去读,看那边还有什么遗留的问题,以及大方向上我们还有什么急需解决的问题。所以当时我做FDR,一个大方向上是说,在应用里面,在很多基因数据里面,我们有大量的额外信息。但是已有的FDR方法并不能有效地用到这些额外信息。
所以这就是一个契机,我觉得OK这是一个方向,我要利用我现在已有的一些想法和知识试图去解决那些问题。但很快当一个领域逐渐变得成熟以后,又发现论文会变得越来越多,多到你不可能去全部读完。在这个时候就只能说,尽可能地去选择一些你现在已经了解的人,或者一些在引领这个领域发展的人的论文读一读,对这个领域的发展速度稍微有一点点直观的感受。如果你觉得这个领域发展速度还可以接受,并且你还愿意在里面继续推进前沿的发展,我觉得就可以继续做。但有时候我会觉得这个领域发展太快了,快到我看不过来了。Conformal inference就是一个这样的例子。这个领域发展太快了,一开始可以把所有论文都读一遍。当然这个有点夸张,因为毕竟也有二十多年的历史,只是没有被统计学家所发现。但至少在刚进入这个领域的时候,我可以做到对大部分论文都比较了解。然而这个领域很快就崛起了,一年会有几十篇甚至上百篇论文,这时候我就会想另辟蹊径,远离“红海”竞争,去做一些还没有被关注但却急需解决的“蓝海”问题。当然我可能说得比较抽象。我觉得选择领域和课题这是一个作为学术界的人终身要问的问题,我也仍在不断地思考这个问题。
蔡: 你的未来的研究方向?
雷:首先会继续一些现在正在做的工作,比如说conformal Inference,还有一些试图解决的问题。因果推断是我接下来一个比较重点的研究方向。因为我现在进入到了经济这个领域,会做更多的因果推断和计量经济学。现在计量也是一个非常广的领域,大家在思考,如何把机器学习有效地用在计量里面。大家在前面的十年里已经发现,可以把机器学习当做一种好的预测算法,然后去看一个好的预测怎么去能带来好的统计推断。但现在在计量领域里面,其实大家更想看,机器学习能不能在其他的方面,以其他的方式产生效用。所以这也是我未来的一个方向之一。另外我现在也是在一个身份转换的过程中,我有点想做一些新的领域。但这个新的领域是什么?我现在还没有一个很好的想法,也许两年之后能给出一个更好的答案。
蔡: 做AP之后研究心态是否有所变化?
雷:研究心态方向方面不会有太大变化。好的科研不会受到身份转换的影响,整个研究的流程还是会一样。当然会有更多的牵涉到基金或者带学生,这些对研究的方式会稍微产生一些影响。但目前的我的预期是,不会发生太大的变化。
蔡:初心不改。
雷:对。
蔡: 如何保持旺盛的精力?
雷:我觉得主要是保持好奇心。我们的生活是一个exploration-exploitation tradeoff。如果了解过bandit或者online learning方面的工作,我们知道永远都要做一个Epsilon-Greedy 的人。在任何时候,你都需要留出一些去探索。因为这个探索可能带来很大收获。现有理论告诉我们,探索会减小regret。但是我会更倾向于更积极的方式来说,它会给你带来更多的reward。
蔡:对,所以关注那些reward,就是做研究带给我们的mental reward,这个是帮助你持续走下去的东西。
雷:尤其是exploration带来的reward。Exploration就是说你去接受你可能并没有那么感兴趣,或者你现在并没有很了解的领域。在这个过程中,也许某一天它就成为了你的研究领域。而我之前的经历,其实很大程度上就证明了这一点。因为无论是包括多重假设检验(multiple testing),因果推断,还是网络分析,还是优化,都是因为一些机缘巧合,在探索的过程中发现我对这个感兴趣。这跟我刚进入博士项目预期我会成为的那个样子,其实相距很远。
蔡: 对于想要学习统计和机器学习的学生的建议?
雷:我觉得第一个建议就是我刚才说的,exploration-exploitation tradeoff。尤其是在刚刚接触研究的时候,前几年多花时间在探索上,多花时间去听讲座,听专题课程,跟人聊,这些人不仅限于统计圈子里的人,也可以是别的应用圈子里的人。如果研究基金允许的话,多接触各种各样的人,去了解他们的研究兴趣。尽管很多时候听不懂他们做的科研,但不必沮丧,因为至少可以有曝光效应 — 当你听某个专业名词五次六次的时候,你就会逐渐了解它了。这个效果是真实存在的。它会让你更快地融入到一个新的领域,更快地去熟悉这个领域里面一些有趣的问题。另一建议就是不要在一棵树上吊死。作为博士生,我们其实是有很多时间和灵活性的。当你发现一个领域不适合自己的时候,就及时转换。除非你已经到了job market上,除非你已经花了很多年,沉没成本非常高。任何时候你都可以去转变自己的方向,找寻最适合自己的那个,从而获得更多科研的愉悦感。
蔡:很中肯的建议!再次感谢接受统计之都的采访!
雷:不客气!祝统计之都越办越好!
-
Asymptotics For High Dimensional Regression M-Estimates: Fixed Design Results ↩︎
-
AdaPT: an interactive procedure for multiple testing with side information ↩︎
-
Accelerating Stochastic Gradient Descent using Predictive Variance Reduction ↩︎
-
Overlap in observational studies with high-dimensional covariates ↩︎
-
Distribution-Free Assessment of Population Overlap in Observational Studies ↩︎
发表/查看评论