COS访谈第23期:尹建鑫老师

【COS编辑者按】受访者:尹建鑫      采访者:王小宁     校对:王佳

尹建鑫 中国人民大学副教授,2009年在北京大学获得博士学位。2009年至2011年在美国宾夕法尼亚大学医学院生物统计系做博士后研究。2011年8月回国到中国人民大学任教。从事高维变量选择、图模型估计、结构学习算法、自适应实验设计、非参数统计等方面的研究。研究成果发表在国际知名统计杂志上(Annals of Applied Statistics, Journal ofMultivariate Analysis,Statistica Sinica)及Journal of Machine Learning Research的W&CP系列中。曾多次参加国际、国内学术会议,做演讲、邀请报告。并曾作为参赛队代表获因果与预测国际挑战赛“最佳整体贡献奖”。目前主持一项国家自然科学基金青年项目、一项教育部博士点基金项目。2015年获教育部第七届高等学校科学研究优秀成果奖(人文社会科学)统计学三等奖

阅读全文

共轭梯度法计算回归

共轭梯度示意图(图片来源:维基百科)

轮回眼 共轭梯度示意图(图片来源:维基百科

引子

之所以写这篇文章,是因为前几天统计之都的微信群里有同学提了一个问题,想要对一个很大的数据集做回归。然后大家纷纷给出了自己的建议,而我觉得共轭梯度算回归的方法跟这个背景比较契合,所以就正好写成一篇小文,与大家分享一下。

说到算回归,或许大家都会觉得这个问题太过简单了,如果用 $X$ 表示自变量矩阵,$y$ 表示因变量向量,那么回归系数的最小二乘解就是 $\hat{\beta}=(X'X)^{-1}X'y$。(本文完)

哎等等,别真走啊,我们的主角共轭梯度还没出场呢。前面的这个算系数的公式确实非常简洁、优雅、纯天然、不做作,但要往里面深究的话,还是有很多问题值得挖掘的。

最简单暴力的方法,就是从左向右,依次计算矩阵乘法,矩阵求逆,又一个矩阵乘法,最后是矩阵和向量的乘法。如果你就是这么算的,那么可以先默默地去面壁两分钟了。

更合理的方法,要么是对 $X'X$ 进行 Cholesky 分解,要么是对 $X$ 进行 QR 分解,它们基本上是现在算回归的软件中最常见的方法。关于暴力方法和矩阵分解方法的介绍和对比,可以参见这个B站上的视频。(什么?你问我这么严肃的话题为什么要放B站上?因为大部分时间都是在吐槽啊)

好,刚才去面壁的同学现在应该已经回来了,我们继续。前面这些通过矩阵运算求回归系数的方法,我们可以统称为直接法。叫这个名字,是因为它们都可以在确定数目的步骤内得到最终的结果。而与之相对的,则叫做迭代法,意思是通过不断更新已经得到的结果,来逐渐逼近真实的取值。打个比方,你想要知道一瓶82年的拉菲值多少钱,直接法就是去做调研,原料值多少,品牌值多少,加工费多少,运输费多少……然后加总起来得到最终的定价;而迭代法就是去问酒庄老板,你先随便蒙一个数,然后老板告诉你高了还是低了,反复循环,总能猜个八九不离十。

说到这里,你自然要问了,既然算回归的软件大都是用直接法,为什么还要考虑迭代法?莫非直接法有什么不好的地方?这就说到问题的点子上了。

阅读全文

COS访谈第22期:李丰老师

受访者:李丰

采访者:王小宁 张心雨

审稿人:成慧敏    

李丰,博士,中央财经大学统计与数学学院,副院长,硕士研究生导师, 主要研究方向为大数据与复杂模型、贝叶斯推断与统计计算、计量经济与预测方法以及多元模型。现任北京大数据协会理事,中国统计教育学会高等教育分会副秘书长,曾任2014 年金融工程与风险管理国际研讨会执行秘书。李丰老师是多个国家项目的项目负责人及主要参加人,曾获得The 2014 Cramér Prize等重要奖项。著有《大数据分布式计算与案例》等书籍。

阅读全文

RStudio的前世今生——RStudio创始人专访

本文是一篇Joseph B Rickert(简称JBR)对J.J. Allaire(RStudio的创始人和首席执行官)的采访稿,原文在此。统计之都与作者沟通后得到授权将其翻译为中文,希望可以让广大读者能够更多了解在R的世界中这个叫RStudio的地方。在这次采访中讨论了RStudio的历史、使命和J.J.的未来愿景。 短暂的交谈中讨论了各种各样的主题,包括RStudio的业务、R语言的发展、R联盟对R社群的重要性以及J.J.对R新手们的建议。

阅读全文

第九届中国R语言会议(武汉) 暨华中地区数据科学会议通知

R语言作为统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境,是一个基于GNU系统自由、免费、源代码开放的软件。每年R的官方机构都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在中国,自2008年起,北京、上海、杭州、广州等地已经成功举办了八届R语言会议,前后报名参与人数超过万人。会议内容覆盖数据科学在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域,在高校和业界均形成了深远影响,促进了R语言乃至数据科学在中国的推广和发展。如今R语言会议已成为R语言社区在国内影响力最大的交流盛会,聚学术专家、业界精英、技术大咖于一堂,让更多的数据人参与其中,促进社区内部的交流和进步。

阅读全文

COS沙龙第39期(北京)纪要

第39期沙龙(北京)于2016年11月5日在中国人民大学顺利举办。本次沙龙由人大统院本科生杨舒仪主持,嘉宾李翛然先生于利兹大学金融数学系取得硕士学位。 先后从事过寿险精算,投资银行工作。于2014年创办北京奇点创世信息技术有限公司,主要业务领域为二级市场金融风险管理系统。现已有10余家金融机构、私募基金采用该系统为客户和自营交易提供风险管理及投资顾问服务。其主要工作经历覆盖了一级市场的发行,尽职调查,搭建企业信用分析系统,二级市场的量化分析,风险管理SAAS系统。

阅读全文

第九届中国R语言会议(贵阳)暨西南地区数据科学会议通知

一、会议概况

R语言是一种在统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境,其官方机构每年都会举办中国R语言会议,各个国家及地区也定期有R用户的交流活动。中国R语言会议自2008年在中国人民大学举办第一届起,至今为止已经在全国七个城市成功举办,前后报名参与人数已过万人。会议内容覆盖数据科学在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域,在高校和业界均形成了深远影响。

R语言在各行各业的广泛应用,受到了西南地区数据人的高度重视,因此西南地区数据科学的各类用户需要一个可以交流技术,碰撞思维的平台。为了适应这种需求,中国R语言会议首次走入贵州。本届中国R语言会议(贵阳)暨西南地区数据科学会议将由贵州大学数学与统计学院、贵州省博弈决策与控制系统重点实验室和统计之都联合主办,诚邀学界和业界精英同台演讲交流,共同进步提高!

第九届中国R语言会议(贵阳)暨西南地区数据科学会议欢迎您!

阅读全文

第九届中国R语言会议(广州) 暨华南地区数据科学会议通知

一、会议概况

R语言作为统计和数据挖掘界广泛应用的统计分析、绘图的语言和操作环境,是一个基于GNU系统自由、免费、源代码开放的软件。每年R的官方机构都会举办useR!会议,各个国家及地区也定期有R用户的交流活动。在中国,自2008年起,北京、上海、杭州、广州等地已经成功举办了八届R语言会议,前后报名参与人数超过万人。会议内容覆盖数据科学在各行各业的应用,包括天文、地理、医疗、生物、金融、能源、互联网等领域,在高校和业界均形成了深远影响,促进了R语言乃至数据科学在中国的推广和发展。如今R语言会议已成为R语言社区在国内影响力最大的交流盛会,聚学术专家、业界精英、技术大咖于一堂,让更多的数据人参与其中,促进社区内部的交流和进步。

R语言在电商、互联网、金融、医疗、生物医学等领域广泛的应用前景吸引着越来越多华南地区数据人开始关注R与数据科学,来自各行各业的R用户需要这样一个平台交流技术,碰撞思想,广州R语言会议正是适应这种需求而举办。2014年11月,在华南统计科学研究中心、中山大学数学学院以及统计之都的多方努力下, R语言会议首次在华南地区主办,随后,2015年5月,华南地区第二次R语言会议也在中山大学成功召开,报名情况火爆,约有1400多人报名参会。 2016年中国R语言会议(广州)将由华南统计科学研究中心、中山大学数学学院与统计之都联合主办,将在往届会议的基础上进一步扩大R语言和数据科学的影响力,诚邀学界和业界精英同台演讲交流,愿与更多的数据爱好者探讨数据科学,共同进步提高!第九届中国R语言会议(广州),欢迎各位的到来!

阅读全文

热门数据挖掘模型应用入门(一): LASSO回归

作者简介: 侯澄钧,俄亥俄州立大学运筹学博士, 目前在美国从事财产事故险(Property & Casualty)领域的保险产品开发,涉及数据分析,统计建模,产品算法优化等方面的工作。

目录:模型简介线性回归Logistic回归Elstic Net理论简介学习资料

阅读全文

Python的七种武器

君子生非异也,善假于物也。

“物”能够延展英雄的能力。它是吕布的赤兔马,杨过的玄铁重剑,CS中的沙漠之鹰,曹操传中的凤凰羽衣。“物”也可用以治愈英雄,例如张无忌的黑玉断续膏,李逍遥的天香续命露,还有深夜里TVB的一碗面。

阅读全文