推荐语:机器学习算法常常带有“黑箱”的特性,因此一些学者开始致力于可解释性机器学习的研究。Christoph Molnar 的新书 Interpretable Machine Learning 对此领域有较为全面的介绍。目前全书已在网络上开源。
推荐人:宋骁
链接:https://christophm.github.io/interpretable-ml-book/
推荐语:这篇文章介绍了基于贝叶斯框架机器学习的一些重要概念,这个博客也值得关注。
推荐人:于淼
链接:https://towardsdatascience.com/bayesian-inference-algorithms-mcmc-and-vi-a8dad51ad5f5
推荐语:公司新闻往往会影响股价,这篇文章利用 OpenBlender 的 API 收集两家报纸关于苹果公司的新闻,然后与苹果当日股价构建机器学习模型预测趋势,得到了不错的预测表现,全文有R代码,也有python版的。
推荐人:于淼
链接:https://medium.com/swlh/outstanding-results-predicting-apple-stock-with-news-using-r-33be5300999f
推荐语:作为行政单位的国家数据可能不如人口聚集单位的社群数据更有经济学意义,这篇文章利用人口密度加权做了 k-means 聚类,展示了全世界195个主要人口聚集社区的边界。
推荐人:于淼
链接:https://towardsdatascience.com/weighted-k-means-clustering-example-artificial-countries-f91c541827fe
推荐语:约翰霍普金斯大学提供的基于此次疫情的流行病学免费公开课,结合时事普及了一些流行病学术语。
推荐人:于淼
链接:https://www.coursera.org/learn/covid19-epidemiology
推荐语:这次大流行让仪表盘这种数据展示方式被更多人接受,然而,只要开始使用就会发现你想问的问题即使是交互式仪表盘也很难满足,例如我想知道社区中位数收入与发病率的关系,但仪表盘通常不预设其他数据接口而无从得知,甚至连数据过滤都不支持。这篇文章作者则打出了《仪表盘已死》的题目指出,数据的展示方式应该从仪表盘向交互性更强的笔记本过渡,用户不仅可以看到数据,还应该有渠道参与数据分析来拿到自己问题的答案。
推荐人:于淼
链接:https://towardsdatascience.com/dashboards-are-dead-b9f12eeb2ad2
推荐语:Gelman的《Bayesian Data Analysis》官方对非商业用途使用者免费了。
推荐人:于淼
链接:http://www.stat.columbia.edu/~gelman/book/
推荐语:在这篇《泛化危机》中,作者认为当前研究中包括可重复性危机在内的很多问题本质在于统计视角下无法避免对结论的过度泛化,Gelman 也其博客上也对此做了正面评述。
推荐人:于淼
链接:https://psyarxiv.com/jqw35
推荐语:不成比例分类数据的可视化我们通常使用对数转化来进行对比,这篇论文提出了 Du Bois Wrapped Bar Chart 作为这类场景的可视化手段,通过峰值转弯来直观显示不成比例的分类数据,中文可译为“贪吃蛇图”。
推荐人:于淼
链接:https://arxiv.org/abs/2001.03271
推荐语:R 有两套作图系统,一是基础作图系统(基于 graphics 包),一是网格作图系统(基于 grid 包),但估计前者在网格作图系统的杰出代表 ggplot2 的笼罩下已经没多少人知道了。基础作图系统的采用的是纸笔画图模型(典型的程序员思维),比起 ggplot2 的数据模型可能更难上手,但一旦你掌握如何画出一幅图的任意组成部分(标题、坐标轴、点、线、形状、颜色等),它其实还是很强大的,只是代码读起来可能没那么雅致而已。这篇博客给了不少基于基础作图系统的优雅的图形例子,读者不妨了解一下它的风格。
推荐人:谢益辉
链接:http://karolis.koncevicius.lt/posts/r_base_plotting_without_wrappers/
推荐语:上条是基础作图的,而 ggplot2 体系虽然网上教材很多,但系统学习的资料很多更新并不及时,Thomas Lin Pedersen 在今年哥本哈根的 celebRation2020 开了一个题为《Drawing Anything with ggplot2》研讨班,系统讲了 ggplot2 体系的原理与发展状况,很多用户痛点例如拼图、文字重叠、图片标注、动画演示、网络绘制其实都已经有了成熟解决方案,这是幻灯片仓库,里面有视频地址。
推荐人:于淼
链接:https://github.com/thomasp85/ggplot2_workshop
推荐语:科研工作者在写脚本时,经常是探索目的为主,在找到理想结果后进行代码整理时,会因为变量命名混乱而头疼,存在变量名重复使用带来的错误,例如 df、temp、x 等中间变量。这个 rclean 包的主要任务就是自动化代码整理,构建变量关系图与提取特定变量的相关代码,方便脚本的整理。
推荐人:于淼
链接:https://ropensci.org/blog/2020/04/21/rclean/
注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。
发表/查看评论