推荐语:PAC学习理论是统计机器学习中最最重要的基础理论之一,它解答了机器学习机制、可学习性等一系列问题,衍生出了计算学习理论这一机器学习的子领域。这篇文章对PAC理论中的概念进行了较为详细的梳理,并加入了作者自己的理解,挺适合统计机器学习初学者一窥门径。

推荐人:林枫

链接:https://jeremykun.com/2014/01/02/probably-approximately-correct-a-formal-theory-of-learning/


推荐语:一篇关于频率方法和贝叶斯方法的挺有意思的小文章,文章的核心观点是“不要在意方法流派,关键是看哪种方法解决问题”。围绕这个观点,文章给出了一个药物控制相关的对比案例,并分析了什么样的问题适用于频率方法,什么样的问题适用于贝叶斯方法,并附上了相应的R代码。是一篇值得探讨的文章。

推荐人:林枫

链接:http://www.win-vector.com/blog/2013/05/bayesian-and-frequentist-approaches-ask-the-right-question/


推荐语:在科学界刮起了 Open Science 的风潮下,如何使得发表的论文的数据分析过程变得易于可重复是诸多研究者和出版方所探讨的问题。生命科学界的 eLife 杂志刚刚做出了他们新的发表规范——可重复文档(Reproducible Document)。在这种规范下,研究者可以借助 eLife 提供的一系列工具,在最终发表的文章中集成数据与分析代码,并使得读者可以直接在文章中阅读代码以理解研究过程。相信在出版方的推动下,可重复研究的各种规范将会推广得更为迅速。

推荐人:夏骁凯

链接:https://elifesciences.org/labs/7dbeb390/reproducible-document-stack-supporting-the-next-generation-research-article


推荐语:伴随开放数据源的公布,越来越多的人可以直接通过API与开源软件来重组旧知识或探索新知识。这篇文章的作者介绍了自己从想法提出到做出加州百年野火可视化的过程并介绍了一些实际过程中的难点。开源数据与软件降低了研究的门槛并提高了效率,这对问题导向型研究是一个利好,通过技术组合有可能发现新现象与规律。

推荐人:于淼

链接:https://source.opennews.org/articles/how-we-mapped-more-100-years-california-wildfire-h/


推荐语:AutoML最近几年越发流行,autoxgboost 旨在实现模型 xgboost 的自动调参,解放算法工程师,它基于机器学习框架 mlr 和 贝叶斯优化框架 mlrMBO 实现。

推荐人:朱俊辉

链接:https://github.com/ja-thomas/autoxgboost


推荐语:OMPR包提供了一个方便易用的优化求解的 R 语言接口,它受 Julia Jump 包的启发,将混合整数规划模型(MILP)实现了更高的抽象,以便于数据分析使用,并与目前 R语言中的 ROI 包以及其他求解器完美结合。

推荐人:朱俊辉

链接:https://github.com/dirkschumacher/ompr


推荐语:一个非常cooooool的想法,贯穿了代数和图论。想法很简单,就是利用矩阵构造一个等价二分图,将矩阵运算转化成图上的路径运算。在这种视阵为图的观点下,我们可以将概率、关系等都转化成图的表示,从而将多学科之间关联、统一起来。相当有意思的文章,推荐大家都可以看看,有一定启发性。顺便推荐一下这个数学网站 https://www.math3ma.com 。里面有不少有意思的代数、拓扑和几何相关的文章。

推荐人:林枫

链接:https://www.math3ma.com/blog/matrices-probability-graphs


推荐语:可重复性不仅仅意味着结果的重现性,还可以指代模版式报告,可抽象为同一工作的数据可以用同一脚本通过条件触发用来强化模型或更新。这篇文章通过电子邮件在移动端启动 R 脚本实现数据与报告的按需更新,类似 ifttt 的模式不过可玩性更高一些。例如我们可以设置一个数据源 rss 更新的邮件提醒,然后触发一个服务器端 R 脚本去自动更新数据并重新训练模型,实现无人值守的实时模型训练。这可能比 API 监控要灵活些,因为你可以在 R 端搞点正则表达式或预处理来自定义触发更新的条件,而邮件可以当第三方日志用。

推荐人:于淼

链接:https://r-bar.net/r-scripts-mobile-device-email-triggers/


推荐语:R 最初被认为是一种统计学专用的语言,甚至现在很多人介绍 R 语言都不忘来一个学术圈里用的多的标签,其实 R 用户并不知道 R 社区聚合了很多其他语言要么实现复杂,要么压根儿没有的特性与扩展,这篇文章就总结了 R 语言中十个比较特殊的应用,包括但不限于制作 word 或 ppt 文档、制作网络应用与 API 、统一的数据库接口与语法、支持深度学习、支持集群计算、互动式学习甚至是游戏界面等。我个人感觉是也许 R 作为编程语言很多设计比较奇怪,执行效率也可能不高,但作为探索与想法实现的工具可以说是非常平易近人了,基于 R 社区的支持,你可以很快把想法透过数据展示给受众或进行试错,这就已经可以解决很多实际问题了。

推荐人:于淼

链接:https://simplystatistics.org/2019/03/13/10-things-r-can-do-that-might-surprise-you/


推荐语:零假设显著性检验(NHST)可以说是可重复性危机的核心,很多人批评这个方法,但更多的人并不知道除了 NHST 外还有什么简明的分析框架。Gelman 曾提出用 Type M 与 Type S 来替代现在流行的假阳性与假阴性,但一直以来缺少直观的理解方式,retrodesign 包就是设计出来通过仿真展示 Type M 与 Type S 错误及其功效的,这对于很多小样本研究来说可能是灾难性打击,一行代码就可以说明研究不靠谱了。其实 NHST 不是问题不够严重,而是不够明显到让人直观理解,更多类似工具的出现可以进一步防止 NHST 的滥用。

推荐人:于淼

链接:https://andytimm.github.io/2019/02/05/Intro_To_retrodesign.html


推荐语:如何在R中使用 Tensorflow 建模并且通过 Docker 部署到生产环境是业界一大热点,T-Mobile 公司在这方面做出了业界到最佳实践,为 R 在生产环境的使用做出了贡献。

推荐人:朱俊辉

链接:https://opensource.t-mobile.com/blog/posts/r-tensorflow-api/


推荐语:我们死记硬背的一大堆参数和非参数检验,归根结底其实都可以用(广义)线性模型搞定。我们到底是不是上了个假大学?

推荐人:谢益辉

链接:https://lindeloev.github.io/tests-as-linear/


请回复统计之都 Github 主站相关 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。


注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。

发表/查看评论