刘霁,刘霁,罗切斯特大学计算机科学系、电子与计算机工程系助理教授。刘霁教授毕业于中国科学技术大学,并于亚利桑那州立大学与威斯康星麦迪逊分校取得了硕士与博士学位。他的研究兴趣广泛,包括机器学习、优化及其在计算机视觉、数据挖掘等领域的应用。刘霁教授于罗切斯特大学建立了机器学习和优化研究组。他在2010年 SIGKDD 大会上获得最佳论文提名奖,2015年UAI大会Facebook最优学生论文奖,以及2017年IBM faculty fellowship. 刘霁教授已在包括 JMLR,SIMOPT,NIPS,ICML 等顶级期刊和会议上发表过多篇论文。

small_jiliu

本访谈是在黄帅(华盛顿大学工业工程系助理教授)的引荐下,由冯璟烁(下简称“璟”)和冯天舒(下简称“天”)共同对刘老师(下简称“刘”)进行了采访,并事后整理成文。

学术与科研

:刘老师您拥有非常丰富的经历,能否先请您谈谈您的求学经历?  

:我的经历比较复杂,本科是在中科大的自动化,后来保研去了中科院继续读自动化。读到一半,倒也不是觉得自动化没意思,但是想接触到更前沿、我自己认为的更高大上的一些东西,于是后来就出国了。出国之后到 Arizona State University(亚利桑那州立大学)念计算机科学的硕士,在那儿遇到两个挺好的老师。当时一位老板是做图形学,另一位老板是做机器学习的。后来我自己觉得,相对来说机器学习从方法论的角度上,它会更加根本一些,研究的是很多问题,不管是应用的还是理论的,当中共性的东西。所以我后来就做的机器学习。硕士毕业之后我就去了威斯康星,继续读计算机的博士。在读博期间,偏重机器学习和优化这方面。  

:那么说您从原先所学转到机器学习这一方向,和您导师的关系很大是吗?

:对,导师的关系很大。导师的具体作用我觉得几方面。第一,他能够对你的价值观产生影响。第二,他能对你的视野产生很大的影响。你老板的视野在短期内基本上决定了你的视野。所以这个是很重要的。当然我个人特点也有影响,我还是相对来说喜欢做的东西更根本一点。  

:会更侧重于理论方面一些?

:不一定是理论,其实应用也有很多根本性的问题。科研为什么叫 research 而不是 engineering,至少不是纯的 engineering,是在于研究的对象是很多东西的共性,engineering 则更加偏于解决某一个具体的问题,而这个问题不一定是一个普遍的问题,甚至有的时候只需要在一个特定的数据集上把它做好就行。

比方说经常会有人说“我们解决了人脸识别的问题”,但实际上这种说法是不严谨的。很多时候他们只是在他自己的数据集上把人脸分类的效果做的很好,但不代表他解决了人脸识别的问题。如果把他的方法放到另外的一个数据集上去,那可能就没用了。  

所以说科研会需要更具普适性一些,研究的问题更加全面。科研的一个根本性的目的是希望我们研究清楚这一个东西之后,其他人都可以用。那么从统计的角度来解释,就是要解决一类的问题,而这类问题最好不是一个零测集。很多实际的具体的问题,它其实解决的是一个点的问题,而这个点从测度的角度来讲它可能是个零测集。而做研究其实更多的是希望解决一个非零测集上的问题,至少它可以代表一类有代表性的问题。这个是我在硕士期间逐渐产生的对于研究性的一些认知。所以就会想做一些更根本性的问题。当然搞数学的人他们做的还要更加基本,他们做的东西更抽象,越抽象它能覆盖的东西就越多,但那样也就越难。  

:您之后在博士期间,研究方向又因为什么原因转到了优化这一方面?

:严格来说不能算是转,机器学习是一个比较潮的提法,但是它的数学基础主要就是两个方面。一个方面是统计,统计更多的是对实际问题进行建模。无论是极大似然,还是加上一些贝叶斯或者是一些正则化条件之类,这是用统计的方式来建模,是对真实世界的一个模拟。但是要找到一个好的解,这个是需要优化的。所以优化和统计是机器学习的两个重要基础。  

: 是不是有点像建模与解模型的关系?  

: 没错。优化其实就是说在已有模型的基础上怎么求解。比如用回归来解决问题,那回归这个问题怎么求解呢?这个就是优化讨论的问题。有时候人们会觉得这个问题好像很简单呀没有那么复杂。但是存在的一部分问题是,数据规模非常大怎么办?或者这个问题有一些特殊结构怎么办?比如加其他的一些正则化或是加一些约束条件,那这个东西又怎么做?这个实际上就是更加偏计算、优化的问题。所以机器学习里面两个东西都很重要,一个是统计,一个是优化。  

:您也知道机器学习现在非常的火,不止是计算机的在做,学统计的也在做。那您是否会觉得计算机这边的优势或特长更偏优化这一方面?  

:当我做机器学习的时候,大概是09年,那个时候机器学习不火,是很难找工作的,非常难找工作。那个时候我说我转机器学习,然后我老板就说这个不太好找工作,他理由很直接,但确实是不好找工作。机器学习火起来也是最近一两年、两三年的事情。学计算机的人通常来讲编程强于数学,但是现在机器学习火起来了,学计算机的必须学更多的数学了,有人选择统计为主要数学背景,有人选择优化为主要的数学背景,有人两方面都很擅长。

:那您觉得为什么会火起来?

:几个原因吧。第一个原因是数据本身,可用的数据越来越多了。那么从数据当中可以拿到你想要的信息,能够提取有用的信息,能够帮你做出正确的决策,实际上是一个必然的趋势。因为以前大家没有想到数据会那么有用,而且以前用数据的方式相对来说也不一定有那么多,但是现在数据是可获得的了,有办法拿到了。

那么第二个原因就是计算能力提升了,以前一台电脑,485、486、586这种,那个时候计算机没有那么强大的能力。现在一台个人 PC 的计算能力比那个时候几十台上百台集群的力量都大都快。那个时候的电脑,硬盘才4G,比如我98年买的第一台电脑,那个电脑才4个G,而现在的内存都比那时的硬盘大。所以计算能力是一个飞速的提升。  

:所以深度学习也是因此才又重新开始普及起来了,其实它们很久以前就被提出了,但直到最近才重视起来。  

:对对。一个是因为数据可用了,一个是计算能力能够达到,能解决那么多东西。这个其实说明,硬件条件支持了你才能够做到一些事情。一个东西在那个时间点,外界的环境不够好的时候,也是没办法触发它的爆破点的。只有当一定的条件满足的时候,才会流行起来。  

:现在因为这些条件提升,深度学习开始流行,那您觉得这对优化领域又提出什么新的挑战吗?

:其实这不仅仅是深度学习。从优化来讲,它解的是一些更广泛的问题。对优化提出的一个问题是,这么大的数据,你要做并行计算,怎么更加高效,怎么将效率做的更好,这其实是一件不小的事情。以前传统的优化研究,更多的是倾向于设计一个算法,然后这个算法能够保证收敛,就可以了。这是传统的优化,包括以前的文章、研究,都是这种风格。但对现在来讲,这是远远不够的。

首先,这个算法怎么把它并行上去,如果只是写一个公式怎么去递推,实际上要实现到机器上还是有很多的问题的。机器之间怎么提高它们的并行的效率,怎么减少它的通讯的代价,怎么实现机器与机器之间的协同,这里其实有很多的问题,是实现上的问题。除此之外,理论上也有很多的问题,优化的研究以前只是要求收敛就可以了,但实际上仅仅是收敛性对于实际的意义很有限。只是说明了收敛,但是收敛有多快你并不清楚。所以优化理论在这个上也有很多的研究。还有一点,像深度学习特殊一点,它是非凸的问题。非凸的问题没法保证解是全局的,它只是可能是全局的,或者只是个局部的,有时甚至连局部的都不一定,可能是在个鞍点(saddle point)上,既不是全局解也不是局部解。那么这个对于优化来讲也提出一个新的问题,要如何设计优化方法,能够使得你找到的这个解比较好,结果能尽量的接近于最优解,或者是比较好的局部解。所以还是有很多的问题在里面的。  

:我之前了解到深度学习里面他们提出了很多新的优化算法,比如说基于 mini-batch 的,还有一些基于 EWMA 那种平滑一些的方法,加快它的收敛速度。

:对,确实有一些方法。但是就优化方法而言,其实这里面有一个比较有意思的点就是,做深度学习的人他们自己会有一些经验的方法去做优化方法,他们效果能够提高,但是理论上没法保证。有些也不一定是收敛的,是有一些问题的。所以这个时候就需要做优化的人把理论的东西做的更完善,能够理解为什么它是正确的,它为什么会收敛。  

:以及为什么它会更快一些。  

:对。包括最近还有一些文章研究的是大家之前做的经验的方法。比如两个方法都收敛,但是一个方法收敛到的解可以更加接近全局最优,或者更容易找到全局解。但是为什么是这样呢,没有人知道,没有人理解。大家实际中在这么做,但理论上的空间仍然很大。因为深度学习现在更多的还是属于一个实验性比较强的方向,它实际上还需要很多理论上的支持,需要很多理论上的证明来论证这样做是可靠的,为什么一定是对的。纯粹一个经验性的东西在推广上会有严重的问题。毕竟每个人去尝试的数据集是有限的,他不管尝试多少个数据集,实际上他所尝试的所有的数据集加起来也是个零测集。在一个零测集上得到观测到的经验能够推广到全集上面去,这个在逻辑上是不对的,需要有理论的论证,你要能证明这样做至少在某些问题上是可行的。有些问题,你发现在有些数据上确实是能更快,但在有的数据上你发现它根本就不收敛。那这个方法是对还是不对就很难讲,别人也不知道能不能用这个方法。很难想象,如果把这些算法都硬件化会有多高的风险。所以说给优化提出了很多的挑战,但同时也是机遇。  

:您的研究方向包括机器学习、深度学习、优化这些,还有很多别的领域,可以说非常的广,还有很多应用的方面。  

:对。增强学习我现在也做一些,还有计算机视觉,还有包括医疗,和你们黄老师合作的。

:对。那么您是如何去选择您的研究的方向和题目的呢?

:在选择上,我个人是从三个维度来选择吧。第一个是建模,第二个是算法、计算,第三个是理论。

建模这一块的话,其实很多应用的问题,能够找到一个非常有意思的数学模型去建模,包括医疗和生物信息。还有很多问题它有比较特殊的结构在里面,那么这些问题如何建模。我选择的一个很重要的原则是,这个东西在数学上是有意思的。如果一个问题,有时候我觉得它可能听起来很不错,但是在方法上可能只是一个最简单的线性回归,那我觉得也没什么意思。那个问题可能很好但是我也不一定会选。选的根本原则还是希望这个东西它能够在技术上有些有趣的东西。因为还是我刚才讲的观点,科研希望解决的、研究的是一个非零测集上面的问题,不是只是说一个点的问题。如果这个问题已经可以用已有的方法很好地解决了,哪怕这个问题还比较新,比方说以前没有人做图像分类,现在有人说可以做图像分类了,但他做图像的方法比方说就是支持向量机,实际上也没有太多新意,那顶多是一个新的应用,但从方法上来讲并没有新的东西。这是一个方面。

另一方面是算法,算法就偏优化、偏计算一些。我也是希望能够解决一些根本性的计算的问题。你可以想象这样一个情况,现在给你成千上万的数据,比如推荐算法,要用到上亿的用户的样本数据,然后每个样本的维度可能是几十亿甚至是几百亿或更高。像这样一个大的问题,能不能想什么办法把它求解。然后这个方法还需要有稳健性,而且还能够推广到其他类似的问题中去。这是一个计算上非常根本的问题。比方说我现在做的增强学习里面,它也会涉及到这样的问题。它的模型不太一样,解个 MDP(马尔科夫决策过程),但实际上它在优化的层次上也涉及到这个问题,只不过是解的优化问题不太一样而已。所以像这类我也非常感兴趣。

那么第三个就是理论上的一些问题。理论上的问题更多的来讲是从本质上来理解,譬如这个算法,或者这种数学模型它为什么好,你这个提供的数学的优化方法为什么有效,能够保证什么样的效率,什么样的计算复杂度以及你的这种在并行情况下的加速的性质。

这是我选择哪些问题去做的几个比较基本的原则吧。第一个是建模需要有创新,第二个是能够在算法上有一些新的东西,需要新的技术去支持,第三个是它在理论上能给我们带来一些洞察、一些新的东西有新的理解。主要就是这几个大的方面。  

:那您当前的研究大概是哪些方向呢?

:我现在的话,一方面是并行计算,这个偏优化一些。当然既有算法的问题,也有实现的问题,还有理论的问题。另外一个我现在做的还有一个重要的就是增强学习。我觉得这个是一个非常有意思的问题,我认为将来会是一个非常重要的方向。

传统的机器学习研究的一个非常基本的问题可以认为是一个决策问题,比如说图像分类,预测病人发病风险。我称之为一种静态的预测的问题,但增强学习研究的问题我觉得是更加有挑战也更加有意思,它研究的是怎么做一个最优的动态决策。就是说它的目标不是简单的说你给我一个东西,我给出一个推荐,目标只是让当前效果最好。它研究的是我要给你提供一个序列的推荐,这个推荐在增强学习里面称之为策略(policy),我们希望能够找到一个最好的策略可以最大化你的长期收益。这是一个更加困难的问题。一个简单的比方,传统的机器学习问题是告诉你如何把高考考好,这是一个在某一个点上做最优决策的问题。但是在增强学习里研究的是一个更加宏大的目标:如何规划好你的人生。这是一个更大的问题,也是一个更难的问题。所以这样的问题我觉得在将来的机器学习里面,会越来越重要。就像下围棋 AlphaGo 一样,它的目标是一个长期的结果,而不是一个简单的这一步。每一步多吃对方几个子不一定是好的,当然也不一定是坏的。这是一个本质的区别,这也是一个更难的问题,里面有新的理论的问题,有计算的问题,还有学习建模的问题等等。这个我认为是一个重要的方向。  

:那计算在这里应该也是一个比较大的问题,因为动态规划常常在计算的时候非常的没有效率。

:对,没错。MDP 实际上就是有随机性的一个动态规划。所以这个问题,计算的效率是非常重要的,因为本身这类问题计算量就很大,如果效率还很低的话,想验证一下的方法你可能要花很长时间。像 AlphaGo 他们在跑一些试验的时候,训练花的时间可能都需要五六十个 GPU 花上一两周的时间。所以这是一个很根本性的问题。

学生培养

:您对于培养学生有些什么样的看法?对于统计、计算机、数学这一类的在读博士或者有想向这方面发展的同学们有些什么样的建议?  

:我可能很难对其他领域的给出什么意见,我最多只能是对如果想做机器学习这一类的相关方向的,可以给一些建议。对于这样的学生,我希望首先不要以一个特别功利的心态去想、去做这个事情,就想着我能够快点学一些东西,而不去在乎学的多精多好,我只希望趁着这个热潮赶紧去找个工作。这个我个人是并不推荐的。因为首先机器学习以前也不那么火,也是最近一两年才火起来的,是因为这个时代给了它足够的资源,不管是数据的还是计算的,然后你发现能够用机器学习的方法去产生一些真正的价值,所以这个东西才真正火起来。但是一个 PhD 学生如果只是想蹭蹭这个热度,就肤浅的学一点东西,我个人是不推荐的。因为这样的做法对于长远来说,学的东西往往不够扎实,而且对于将来环境变化的适应性相对来说也是不好的,因为你做的完全是很机械化的教条化的东西。可能眼前你这个东西会一点点,然后借此找到工作。但是要知道这个社会的变化很快的,几年前机器学习还不火的,马上一下就火起来了,那几年前有的方向很火的,突然一下就不火了。所以你现在学的一些简单肤浅的东西等你毕业的将来很可能就不火了。提高自身的功底,把东西学扎实,才能以不变应万变。  

:几年前还是压缩感知(compress sensing)特别火的时候。

:对。学的东西越扎实,对根本的东西理解的越深越全面,其实方向上、热点上的这种变化,对你影响会很小。可以这么想,几百年前发明的数学,我们现在还在用,但是像你现在用的手机,可能隔几个月就换一个。这是为什么,就说明追求热点的东西可能变化很快,但是真正本质的东西实际上变化是非常小的。就我们现在用的数学来讲,基本上几百年前的数学就足够了,没有必要用到最新的最难的定理,比如说孪生素数定理,像这种东西我们可能还没法直接用,对吧。这引出我想讲的第二点,就是把自己的基础、数学的基础打扎实,能够从更深层次去理解去想明白这些,将来一定是会受益无穷的。因为很坏的一个情况就是,当你一两年、两三年赶紧的很肤浅的学了一点点机器学习有关的东西出来找工作,突然发现它不火了,它不叫机器学习了,现在可能叫模式识别了,换了个名字不太一样了,有点区别了,你该怎么把你自己引到一个新的环境里去,这种迁移的能力其实就是你本身素质的体现。

:您还有很多审稿的经历,做过很多期刊的审稿人,在这个过程中您有一种什么样的体会?

:我可以简单先讲讲对审稿本身有些什么样的建议,另外一方面,从审稿人的角度,可能更希望是对写文章有些什么样建议,第二点可能更重要一些。

简单讲,第一点的话,我个人的做法是,我对这个文章本身的想法是否成立、是否是有新意更看重一些。相对来讲我对实验的验证和结果没有那么的重视。因为实验结果这个东西,相对来说你总是能够找到、往往也比较容易找到一个对你的方法比较有利的。关键是在于,任何方法你不可能说这个方法比所有其他方法都好,在个别文章里你可能能看到这样的说法,但是这个至少我是从来不相信的。怎么可能一个方法比已有的方法全部都好呢?他虽然能做出实验数据 ABCDEFG,可像我刚刚讲了,他也只是在一个零测集的数据集上的结果比较好。实际上一个更符合现实的一个情况是,这么大一个数据集,有的方法可能在这一块效果比较好,有的方法可能那一块效果比较好。你要提出你自己的新方法,然后你就在你自己的方法最擅长的这个领域把其他方法拿来比,那当然你应该最好,这个东西完全不应该惊讶对吧。但反过来,方法本身的新意,方法本身是否有价值是更重要的,因为它说明了你这个方法,是在哪一类的问题上或者是在哪一类的数据上,效果可能会更好。这个是有意义的,你会告诉别人选方法的时候如何去选。如果你的方法比方说别人完全没看懂,你的实验你的结果只是传达了一个信息:我的想法比其他方法都好,这其实是毫无意义的,也是不真实的。所以审稿来讲我更看重这个方法本身是否有意义,能否给我们带来启发,带来一些新的思考。这是第一个问题。  

第二个问题,对大家、对学生写文章的建议,尤其是对学生。学生写文章有一个很严重的问题就是不太善于把想写的东西经过精简,经过抽象。这个是很难,中国学生尤其缺乏。这个其实和语言是两回事,有时候你觉得是不是我语言不好,所以写文章写出来人家不喜欢,这个是一个原因但不是主要原因。有很多时候我会跟我的学生讲,那你不要用英文讲了,用中文跟我讲讲你要讲的是什么东西,其实也讲不清楚。因为学生的行文逻辑,往往是一个写实验报告的逻辑。我第一步干了什么,第二步干了什么,第三步第四步五六七八九十,可能写了一百步,这个文章可能凑满了10页20页,这是一个很常见的逻辑。但实际上从审稿人的角度来讲,你写了这么多,他要完全把你这个从第一条读到第一百条之后才能够理解你想说什么事情。这是一种非常低效的沟通方式。

一个文章的逻辑,首先第一步应该是你在干什么事情,What are you doing。 第二件事,Why are you doing this,说这个问题为什么重要。只有把这两个问题讲清楚了之后,人家才有兴趣去了解,How do you do this。学生往往上来就是讲 How,第一步第二步第三步一百步都干了什么。所以说这是一个大忌,而学生写的文章里面犯的这种错误特别多。审稿的时候,像计算机会议有很多,审稿人可能只有一两天的时间,去审六到八篇的文章。那么这个时候一篇文章花的时间不可能很长,可能也就两三个小时。那么他看这个文章如果看到一半,其实有时候都不到一半,可能 Introduction 部分看完,他都不知道你在干什么事情,做的什么问题,那就更无从谈起你这个问题有多重要了,那么后面他一定是没有兴趣读下去的。这个时候作为一个正常人,想法就很简单,他不会趋向于接这个文章而是一定会倾向于拒绝这个文章。一旦想拒绝这个文章,他可以找出各种不同的理由来拒绝。你要坚信,除了非常非常理论的文章以外,几乎所有的文章你都可以找出很简单的理由去拒它。大家可能最最常见的一个理由,就是审稿人说你这个文章里实验不充分,我好像看到过很多类似的研究这个问题的文章,有 ABCDEFG 一直到 Z,有二十多种方法你都没比过。大家千万相信这个时候往往不是你真正的实验的缺乏,而是在于他根本没有读懂你在说什么,而且他也没有时间去把你这个文章的每个细节去读明白,加上中国学生还在表达上有一些问题,你写出来的东西还不一定是对方理解的东西。所以加上这样的阻碍,审稿人就会觉得这个文章一定是不能发表的,但是他需要找个理由拒掉。最简单最容易的一个方法就是把你的题目在 Google 里面搜一下,看下有几个相关的文章,然后我就说这 ABCD 你那么一比,你就挂了。这是非常非常常见的。包括我自己在年轻的时候写的文章,这样的理由被拒了很多,但那个时候不知道,后来才发现其实是审稿根本就没有明白我在做什么问题,这个问题为什么重要。连这些问题都没弄明白,你去告诉他你是怎么做的,然后他也没完全读懂,他也没时间去读,而且理论的文章又是那么复杂的公式,他也就没有兴趣读下去了,一定会找个非常简单快速的理由去拒绝你的文章,这是很常见的而且也是人之常情。所以在写作文章的时候,首先我经常跟我自己学生讲的一个很重要的逻辑就是刚才讲的,What are you doing? Why are you doing this? 第三个是 How do you do this? 这是一个根本的逻辑,而现在的学生往往上来就是 How,就是我是怎么做的,显然这是非常没效率的。这个过程是需要训练的,中国学生在这一方面相对来说比较缺乏,而这个缺乏不仅仅是语言上的问题,而是本质上的逻辑思维上的缺乏这种训练。

一个常见的方法,我给学生建议的一个方式是这样,你在讲一个东西之前想一想,假设你要给你一个学术大牛推销你的工作,但是只有一句话的时间,你要讲什么。这个问题想明白之后,再想想让你写一段话,大概200词,这个时候你又会怎么介绍你的工作。那么再接下来,我可以更长一点,给你两页纸或者一页纸,你再讲你的工作是什么样子的。你把这几个问题想清楚之后,你再去讲你细节怎么做的,这样来讲基本就可以了。其实一句话讲清楚是啥,不就是 Title 吗,一段话不就是 Abstract 吗,一页两页讲清楚不就是 Introduction 吗,然后后面就是你的文章。一个好的文章,审稿人看到你的题目就知道你做了什么,知道这个东西为什么有意思,就能够吸引他的眼球。一段话来讲,他能够知道你这个问题更细节的信息,知道为什么这个问题重要,而且知道你的技术上的理论贡献是什么东西。然后在 Introduction 读完之后他有更深刻更详细的认识。这几块能够抓住审稿人之后,你后面的东西相对来说他就明显更容易接受一些。当审稿人觉得这个东西有意思,他就会去找接收这个文章的理由,而不是去找拒绝这个文章的理由。很多的会议审稿人的审稿流程是,我在读完 Introduction 之后,我基本上就开始决定是要找一个拒绝这个文章的理由还是接受这个文章的理由,所以前面非常重要。

还有一点,也是关键的很重要的一点,就是你写文章的时候你的目标是让非专业人士理解你做的什么事情,你要去说服非专业人士,我的工作很好、很牛。重点不是去说服那些专家你的工作有多好。这是非常非常关键的。因为对专家来讲,你前面讲的 Abstract、Introduction 对他来讲可能都是废话,大部分是毫无意义的。他在这个领域做了很多年,他很清楚是怎么回事,基本上一看你的算法怎么做他就能完全理解。所以他如果觉得这东西好,那就可以,如果他觉得不好,你前面再怎么写影响也很小很小。所以往往来说,你更多时候其实要打动的是那些非专家。而且据我个人的经历是这样,拒你文章的往往来说都是非专业人士。你会收到很多很随机的意见(random comments),你要按照他的建议去修改你的文章,未必是有帮助的。你应该去想一想他为什么给一些说不通的意见。就像他说你实验不充分,给你10个方法说你都没比较,这个本身来讲就是说不通的,你比较了可能也没有太大意义,你不是真的缺乏实验,而是在于他根本就没有搞清楚你到底是在干件什么事情,为什么这东西有意义。这个东西搞不定他只能找一些理由把你拒掉,就跟妹子要拒你,说你是个好人是一个道理对吧。你说我要追一个妹子,我去当个坏人是不是她就答应我了,显然不是。同样的道理。  

:您怎么看待公司和学术界之间的关系?

:以前来讲,我可能会觉得工业界没什么意思,觉得做的东西都很肤浅,没什么太多东西,觉得学术界才是高大上的。但真正体验过之后就会觉得,公司往往接触的是更加实际、更加有影响的一些东西。而学术界很多时候的问题,很容易陷入一些空中楼阁,你自己想想很好,这个东西应该会很有意义,但实际上在工业界不一定是真正有价值的。这个是工业界第一个很好的地方,是在于它能够给你提供一些很鲜活的这种实际的问题,在这些问题里面你能发现一些很有意思的东西。然后第二个工业界很好的方面是提供了充足的数据,尤其是在现在这个时代,没有数据什么都干不了,没法做出太好的东西,数据是最重要的。而工业界恰恰能够提供很好的机会,你能够拿到很多的数据,能够真正做出一些个有意思的结果。这个是一个非常非常好的机会。  

:特别是我们做数据科学的,更需要联系一下实际。

:对。联系实际,很多时候你不一定立马就去解决一个实际的问题,但是你从这个实际的问题里面可以引申出很多有意思的、更具普遍性的问题。比如说压缩感知就是一个从实际当中引申出来的问题,引出那么多东西,很多做理论的人都在做,甚至像陶哲轩都在做。它就是一个实际当中引发出来的问题,我要照相我不想做那么多的传感器,我想少弄点但怎么还能把相片恢复出来的效果比较好。这是一个很实际的问题,但它后来引出了很多理论的问题。所以这个是非常有意思的东西。这样的理论才真正的有影响力,能够在实际当中产生真正的效果。  

寄语

:最后,请问刘老师您是否有了解过统计之都?对我们有些什么意见和建议吗?

:嗯嗯,早有耳闻。最早是从你们黄老师那儿了解的。我听说是国内统计领域一个非常有名的论坛,然后有很多人在上面讨论,上面有很多优秀的学者和学生。我个人特别偏好统计数学背景好的学生,个人的经验他们更容易在机器学习的研究取得成功。下次招生要去统计之都打广告(笑)。

建议的话我个人来讲,觉得其实不管统计也好,机器学习也好,还是人工智能也好,现在其实大家的东西本质上是比较接近的,其实都是在数据上做文章。所以可以更加的开放包容一些,也不用强调是统计的,或是机器学习的或是别的什么。能够更包容一些,我觉得那样可以吸引更多的人来参与,来加入到这个家庭。这一点来讲的话,其实机器学习我至少觉得还是做的挺好的。像机器学习的会议,里面有很多统计的人在做,工业工程的人在做,做电子工程、计算机的人在做等等,还有做生物的、做图像的、做语音的、做自然语言的、做数据库的。机器学习里很少很少很少很少有文章被拒是因为说你这个文章做的东西是领域外的(out of scope),我几乎没看到这样的情况。但是在其他的很多领域经常会有这样的问题,比如数据库。我一个很好的合作者,做数据库的,他的文章经常被拒,他就是说你这个是机器学习的文章,不是我们数据库的文章,这个其实是一件很尴尬的事情。能够对相关的领域有一些吸纳、包容,这样的话这个领域才能做的更大更强。往往来说,一个领域快要不行的一个典型的标志就是,有一堆人在那儿定义比如说什么是统计,什么是数据库,有一堆人在那儿定义什么是机器学习。如果领域里很多人在干这样的事情,这个领域已经在走下坡路了,可以考虑是不是可以换个方向了(笑)。  

璟/天:好的,谢谢刘老师接受我们的采访。

发表/查看评论