推荐语:2019年,第十二届中国R会议(北京)将于5月24-26日在中国人民大学举办。2019年,是中国R会议值得纪念的第12个年头,12年象征一个轮回,这一个轮回中,变化的是不断壮大的统计与数据科学领域奋斗者队伍,是日渐凝聚的统计力量,而不变的是中国R会议的初心——服务广大统计与数据科学爱好者,推动中国R会议的不断发展。在这样一个值得纪念的时刻,让我们相约中国人民大学,共赴这场数据科学盛会!本届会议涵盖了多个学科领域,我们真诚地期待您的到来,一同感受数据科学为这个时代带来的惊喜与挑战。

推荐人:统计之都

报名链接:https://www.bagevent.com/event/2615792


推荐语:编程语言曾经是各有特色,但应用层的优秀软件包都在自发形成跨平台语法,Shiny 是基于 R 语言的网络应用框架,开发与上手都很方便,那么作为 R 的竞争者 Python 自然也会有人开发类似平台,也就是 Plotly 出品的 Dash,这篇文章对比了这两个网络应用框架的异同。个人感觉虽然底层机制不同,但编程框架非常接近,基本会了一个另一个也差不多会了。

推荐人:于淼

链接:https://www.rkingdc.com/blog/2019/3/6/shiny-vs-dash-a-side-by-side-comparison


推荐语:在顶刊上对显著性差异的批评几乎成了每过一段时间就会出现的新闻,《自然》杂志上最近又出了一篇号召科学家放弃使用显著性差异的评论。其实对于显著性差异的问题,科研人员要么是真不懂,要么装不懂。前者是确实搞不清楚啥意思,经常发明出诸如不显著性差异的名词来曲解实验结果;后者多半是被逼的没法子,不显著发不出文章毕不了业,甚至问出哪个检验可以看出差异的问题。科研的职业化让统计工具化,然后为了在学术界生存下去各类误用摘樱桃层出不穷,真相与饭碗的矛盾可能是显著性差异问题更本质的源泉。

推荐人:于淼

链接:https://www.nature.com/articles/d41586-019-00857-9


推荐语:sits包旨在构建统一的机器学习与卫星图像时间序列分析工具,包含数据获取,数据可视化,数据去噪与聚类的卫星图像时间序列分析全流程。一方面,它紧密结合包括深度学习(keras),贝叶斯方法, SOM,TWDTW,SVM 等在内的算法工具。另一方面,与 tidyverse, data.table, raster 和 sf 数据处理包也深度集成,实现了高效地卫星图像时间序列分析。

推荐人:朱俊辉

链接:http://www.esensing.org/new_page.php?contents=news06.csv&right-side=institutions.csv


推荐语:学术研究用软件开发者通常面临一个困境:学术文章通常发表后不需要维护而软件开发则是反复迭代的,这就造成了学术软件开发者往往很难获得与其工作量对应的学术评价例如文章发表数。而为了发布软件写的文章通常又不怎么关注代码质量,这使得很多软件文章效果一流但换个数据集就各种找不到对象。RopenSci是一个旨在促进基于R语言的开放科学文化的社群,其发布的软件包需要经过同行评议,代码质量也有检查清单与指南来控制,本来这只是一个野生标准,然而正统的学术期刊例如 Methods in Ecology and Evolution (MEE) 也开始借鉴并实施了,这是一个很好的开端与趋势。从黑匣子软件到开源软件,从开源软件到高质量的代码评审,透明化的学术研究会更有利于思想的流动。

推荐人:于淼

链接:https://ropensci.org/blog/2019/04/18/wild-standards/


推荐语:亚马逊提供一项付费在线图像识别的应用 Rekognition ,有人把这个应用连接到了纽约布莱恩特公园的摄像头上,然后只花了9个小时与60美元,就从行人路过的图像中识别出了很多人,其中就包括一位纽约州立大学的教授,验证则是通过其学术网站的公开照片来完成的,值得注意的是整个流程都是合乎现在法律法规的。很明显这对个人隐私不是什么好消息,打比方用来监督交通状况的公开摄像头很有可能完整追踪了在社交网站发过自拍的个人的完整行动轨迹并公开而当事人完全意识不到,假如算命的懂面部识别,那准确率肯定高的离谱,街上抓个人就能报出你去过哪吃饭,喜欢坐公交还是地铁等等。其实这项技术最早是设计来寻找走失儿童的,其本身也只是执行搜索验证的命令,监管技术使用更多是靠自觉,那么这里的问题就是:如果某项数据技术或算法存在伦理困境,商业化的行为该如何监管?也许这会是另一个技术问题。

推荐人:于淼

链接:https://www.nytimes.com/interactive/2019/04/16/opinion/facial-recognition-new-york-city.html


推荐语:如果你对统计学概念历史及背后的哲学原理与辩论感兴趣,一定不要错过这个博客,博主是一位研究统计学的哲学教授,她夏天也会有个短期课程并顺道会招两个这个方向的博士生,纯的哲学博士。

推荐人:于淼

链接:https://errorstatistics.com/


推荐语:这是一门名为“布鲁士特的召唤”的公开课,来自华盛顿大学两位教授,收集整理了现实世界中利用歪曲事实,谬解数据的案例与其背后的原理,你可以从中学到识别这类布鲁士特的方法,涉及的主题包括但不限于相关与因果、统计学花招、大数据忽悠、可视化误导、发表歧视、掠夺性期刊、假新闻等,这门课本来只是在学校里教,但现在视频也都放网上了。

推荐人:于淼

链接:https://callingbullshit.org/


推荐语:自从 rocker 全家桶上线后,保持数据分析环境最新已经不是什么问题了,然而确实存在有些分析只能制定某一个版本的包才能完成的情况,如果这个包不在全家桶里,我通常的解决方式是自己在 GitHub 上复制那个版本到自己的仓,然后用自定义安装的方式打包进镜像,不过这个方法很啰嗦。这篇文章则灵活使用了 packrat 包用来如实还原本地分析环境并提供了演示案例。

推荐人:于淼

链接:https://www.joelnitta.com/post/docker-and-packrat/


推荐语:Shiny 1.3.2 发布,这次更新加入了交互日志功能,这使得 shiny 应用的开发除虫更为容易,因为现在可以直接在另一个浏览器窗口里检查是那个部分出的问题了,对于提高应用效率很有帮助。另一个功能则是对 js 脚本与 css 的快速部署,因为它们不再都挤一个 R 进程了,背后的黑魔法是 httpuv 包。总体看 shiny 正在着手解决开发与部署效率问题,推荐更新。

推荐人:于淼

链接:https://blog.rstudio.com/2019/04/26/shiny-1-3-2/


请回复统计之都 Github 主站相关 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。


注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。

发表/查看评论