推荐语: FlowingData 是一个关注数据可视化的博客,这是其2018年的总结及文章推荐,这个博客很多可视化直接用的开放数据,同一数据通过不同可视化方式就会表现出不同主题,形式或技术与内容或数据从来都没有完全分开过,运用之妙,存乎一心,窃以为这是只修炼抽象理论所不易到达的。
推荐人:于淼
链接:https://flowingdata.com/2018/12/31/2018/
推荐语:统计学是如何从一个学科走向另一个学科的?nature 旗下子刊《Nature Biotechnology》就曾经出过一系列启蒙文章将统计学、计算机科学一些新概念介绍给生命科学领域的读者。虽然已经近八年没更新了,但其中对于主成分分析、支持向量机、贝叶斯网络、隐马尔可夫模型、动态规划、人工神经网络、EM算法、决策树、多重比较问题、网络分析等主题都有很好的概述,而且直接用生命科学的例子来解释,对于不打算了解算法实现而更关心算法原理与实际应用的同学可以说非常贴心了,而对于统计或计算机专业的同学来说,阅读这些也应该有助于理解如何与另一个领域的人合作。
推荐人:于淼
链接:https://www.nature.com/nbt/articles?type=primer
推荐语:如何获取最新的英文R语言社区资讯,除了广告满天飞的 r-bloggers外,基于 blogdown 构建的 RWeekly 基本上可以涵盖每周最新的R语言社区动向。当然,如果你有自己的RSS列表,也不妨打造一个 RSS 在线阅读器,毕竟信息共享是提高社区活力的重要动力。
推荐人:于淼
链接:https://rweekly.org/2019-01.html
推荐语:深度学习与图模型结合,DGL更好地支持sparse和irregular的图数据处理。DGL目前支持mxnet和pytorch, 支持传统tensor运算到图运算的自由转换, 简化了搭建graph based neural network的过程。
推荐人: 朱俊辉
链接:https://docs.dgl.ai/tutorials/basics/3_pagerank.html#sphx-glr-tutorials-basics-3-pagerank-py
推荐语:世界银行旗下的博客 Development Impact 评选出了2018年的十大博文,内容主要涉及经济、教育与发展主题,高亮了很多有意思的经济学论文,从中也可以看到统计学与人工智能对经济学研究的影响。而且作者显然不满意按点击量排名的选法并提出了一些改进想法,但这其实涉及了互联网行业常用的热度排名与衰减算法,鼓励头部内容的同时给新内容提供上升空间,这样的通用模型其实应用空间还是很大的。
推荐人:于淼
链接:http://blogs.worldbank.org/impactevaluations/top-ten-development-impact-blog-posts-2018
推荐语:辛普森悖论在不同学科中有不同的变体,政治学中的杰利蝾螈就是很好的例子。政客通过重新划分选区,可以直接操纵选举结果。打个比方,某处100人三个选区,60人选A,40人选B,如果选区划分随机,整体上A应该胜出。但是如果我制造三个区分别30人,35人,35人,30人区都选A,另两个区各有15人选A,那么三个选区中B胜出两个,整体胜出,本质上是子分区均质性过高导致的。这个现象在美国特别常见,很多地方选区被搞得歪歪扭扭跟蝾螈一样就是为了操纵结果而胜选,例如故意在优势选区里包括更多的反对者,这样不会改掉优势选区结果,但会降低对手选区的支持率。《经济学人》发现,共和党上台后通过杰利蝾螈进行的选区划分把自己的铁票分到民主党想稀释其支持率,结果铁票转阵营了…
推荐人:于淼
链接:https://www.economist.com/graphic-detail/2019/01/05/the-failure-of-gerrymandering
推荐语:数据分析环境的部署总是需要本机资源的,而工具在线化正逐渐成为一种趋势,本机从处理终端正逐渐过渡为分析终端,而浏览器无疑就是最简单的通用IDE。例如复杂度不高的分析其实直接通过在线工具例如charted来完成,datawrapper 则是自定义程度更高一些的在线自动化工作流绘图工具,同样不需要编程基础。如果打算跟 R 或 python 进行交互,把静态图转成在线交互式的,那么 plotly 可能更合适。这里需要提醒的是,虽然shiny本身就支持交互式图形,但也可以通过plotly包来支持ggplot2风格的交互式图形的。
推荐人:于淼
链接:https://plot.ly/r/shiny-tutorial/
推荐语:RStudio现在每年年初都会举办会议来进行R语言开发与数据科学相关的交流,除了发布旗下开发的新工具外,报告的幻灯片也会在会后公开。整体感觉主题非常前沿,很多新自动化工具出现了,谢大也发布了pagedown包并对下一代学术期刊的排版提出了新构想。总之,这些幻灯片非常值得拿出几个小时研究下,兴许就省了几百个小时的瞎折腾也说不定。
推荐人:于淼
链接:https://github.com/kbroman/RStudioConf2019Slides
推荐语:A星算法是一种通俗易懂的寻径算法,这个包就将其在R中实现了,一共158行代码,但涉及了R中面向对象编程。其实对于不满S3对象的松散又觉得S4对象太复杂的同学,看看这个包的代码理解下S6对象也不错。至少,还能顺道学个算法。
推荐人:于淼
链接:https://github.com/machow/astar-r
推荐语:现在比较流行在学科后加个信息或编程来组建新学科,而且起点都不低,这次推荐的是一个文科综合期刊《Programming Historian》,这份期刊起源于一系列在线教程,后来直接转成了期刊。它不但做到了免费开放获取还实质上做到了开源期刊,投稿审稿模式都是基于GitHub完成的。里面的文章都是教程,因为是面向文科生,所以相当通俗易懂且可操作性非常强,多数也是基于R与python,涉及文本分析、时空分析、社交网络分析还有很多实际可以当数据科学入门教程的工具介绍,但我重点推荐的是其审稿原则:
We do not solicit reviews to judge whether a tutorial is “good enough” to be published. Rather, we consider the review process an integral component of a collaborative, productive, and sustainable effort for scholars to create useful technical resources for each other. Once a tutorial enters our editorial workflow, we work closely with the author and reviewers to maximize its potential and publish it within a reasonable amount of time.
推荐人:于淼
链接:https://programminghistorian.org
推荐语:可以开源的不仅仅只有软件,伴随3D打印技术的成熟,实验仪器等硬件也开始逐渐开源化。这篇文章用不到400美元基于树莓派与3D打印做出了一套实验用微流控系统,而类似精度的商业产品价格都在这个的10倍以上。推荐这篇文章的原因在于这类软硬件开源体系的数据分析后台自然也是开源软件包例如R或python,那么如果这类系统因为价格优势而被学术界青睐,那么对应的开源工具开发与培训行业也许会是一个风口。
推荐人:于淼
链接:https://www.biorxiv.org/content/10.1101/521096v1
请回复统计之都 Github 主站相关 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。
文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。
招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。
注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。
发表/查看评论