推荐语:传感技术是数据收集的底层支撑,当开放数据不能满足需求时,使用开源硬件搭建传感平台收集展示数据就成了天然需求。开源硬件平台目前比较流行的是全功能的树莓派/Rock64系列与单一功能但开发便利的单片机 arduino,当然还有个介于之间的 intel Galileo 平台(善用搜索建议功能)。那么如何实现开源硬件与数据分析平台的交互呢?这篇文章提供了 arduino 与 R 的交互函数,使得实时收集的数据可以直接在RStudio里进行展示。
推荐人:于淼
链接:https://zhuhao.org/post/connect-arduino-chips-with-r/
推荐语:关于为什么用 R Markdown 这个问题,我都没法比他解释得更清楚(我非常不擅长图文并茂,而这篇日志图表俱全)。他用 pagedown 排版的一篇日志看起来也很惊艳。我读了这篇日志,感觉如同发现一枚知己。
推荐人:谢益辉(王婆卖瓜)
链接:https://liao961120.github.io/2019/01/22/write-in-rmd.html
推荐语:迄今为止最大的一次双胞胎研究显示,在 560 种疾病中,约 40% 受基因影响而受环境影响的占约 25%,社会经济地位或空气质量影响的比例较少。这是很有意义的基线数据,这提示我们在考虑疾病治疗方法时可以下手的方向。如果跟环境影响大却搞了基因疗法,基本就是浪费经费了。更可贵的是,这篇文章提供了数据分析的R代码与rmd文档,其为此研究搭建的网站也是基于shiny构建的(虽然前端设计有点简陋)。这暗示了前沿科研一个很重要的趋势:可重复性文档与便捷的交互可视化手段可以极大提高科研人员的研究效率与探索手段。当然,这对科学家的数据分析也提出了更高的要求。
推荐人:于淼
链接:https://github.com/cmlakhan/twinInsurance
推荐语:“全家桶”也许是个贬义词,但对于分析结果的重现而言却是很重要的,数据分析环境容器化与项目化正在成为一种流行趋势。部署数据分析环境是很头疼的事,各类包依赖、软件版本混杂与系统平台大大阻碍了分析效率。目前有两个分支解决方案,一种是通过云计算或集群计算平台来实现在线数据分析,目前 R Cloud 与 RStudio 内测的RStudio Cloud就是代表;另一种则是对软件配置环境进行打包,确保本地部署的一致性,这条路需要容器化技术作为依托,docker 差不多是目前最流行的轻量容器化技术。目前市面上已经有针对Jupyter notebooks的Binder,可以直接将一个Github 仓库打包成 docker 镜像然后一键部署到JupyterHub上,也可以通过stencila本地创作后在线部署。R社区也有rocker镜像或liftr包来实现分析环境的快速部署。当然单纯分析脚本是不够的,数据也应该可以打包或链接并方便分享,目前支持此功能的此类产品是CodeOcean,容器叫做胶囊,里面可以打包脚本、数据及生成docker镜像的配置文件,而且也有期刊支持胶囊与论文的同步发表了,但目前版本控制功能还没有,无论如何研究中的可重复性危机有望基于技术来减弱。
推荐人:于淼
链接:https://codeocean.com
推荐语:这个网站对各种可视化方式进行了归类,更重要的是介绍了使用场景与制图工具的链接,很多图的中文名翻译很有意思,例如美国线、子弹图、脑力激荡图等。
推荐人:于淼
链接:https://datavizcatalogue.com/ZH/
推荐语:BBC公布了自己的可视化手册并推出了自己风格的 bbplot 包,其实很多网站媒体都逐渐形成了自己的可视化风格,例如xkcd漫画的手绘风格、Fivethirtyeight、《经济学人》、《华尔街日报》等。这些好比字体,有风格总是好的,起码也不要是 Excel 默认风格,要还是张3D饼图,一股浓郁土味情话的既视感扑面而来。
推荐人:于淼
链接:https://bbc.github.io/rcookbook/
推荐语:在考虑未来人工智能大数据是否会改变生活之前,皮尤研究中心调查了下当下人们对算法的理解,结果显示虽然算法目前已经在主导更多人信息流了,但大多数人根本没意识到自己被算法分类了。然而,人们已经开始对算法是持怀疑态度且认为算法驱动的社交网络与现实脱节。有个段子说在一些网游服务器上虽然显示爆满,但其实就几个玩家陪了一堆机器人在玩;很多社交应用也大量使用机器人来营造繁荣;自动化体育新闻报道算法的水平已经跟记者差距不大了…未来其实就在今天的新闻里,只不过总有人活在过去。
推荐人:于淼
链接:http://www.pewresearch.org/fact-tank/2019/02/13/7-things-weve-learned-about-computer-algorithms/
推荐语:没被R包里 OpenMP 编译问题折磨过的 Mac OS 用户人生是不完整的,苹果公司默认的 clang 编译器并不支持 OpenMP ,这导致很多R包在本地编译时各种花式报错,修改 ~/.R/Makevars
让R编译时选择支持 OpenMP 的 clang 编译器或 gcc 编译器对绝大多数应用层用户来说比较困难,前置的依赖安装工程也是各种复杂,这篇文章详细梳理了关于这个问题的糊涂账,非常适合从入门到放弃。
推荐人:于淼
链接:http://thecoatlessprofessor.com/programming/openmp-in-r-on-os-x/#bash-clang4
推荐语:R 语言因其较陡的学习曲线,商业的、开源的图形用户界面层出不穷,如 rattle、 Rcmdr、radiant 等等,这里又出现一款新的工具 jamovi, Bob Muenchen 为此写了篇文章予以介绍,他的博客中还介绍了其它同类工具,对社会、经济、语言学科的人来说,不妨比较看看,除了 SPSS 可能还有一款更适合的工具在等着你!
推荐人: 黄湘云
链接: https://r4stats.com/2019/01/09/updated-review-jamovi/
推荐语:htmlwidgets 包自出世以来不断促进新的交互可视化利器诞生,目前已有 100+ 扩展包使用了 htmlwidgets, 颇具影响力的有 plotly 、rbokeh、leaflet、 highcharter、 dygraphs 等,Ryan Hafen 最近把它们收拢在一起,创建了一个 htmlwidgets 扩展包合集,图文并茂的介绍它们,方便大家选用。BTW,不知大伙是否还记得 Daniel Emaasit 维护的 ggplot2 扩展包合集,它们的网站和目的迷之相似!
推荐人:黄湘云
链接:https://gallery.htmlwidgets.org/
推荐语:数据狂人 Maëlle Salmon 基于 C++ 库搬运狂魔 Jeroen Ooms 的两个 R 包 pdftools
和 magick
,以从白宫泄露出来的川普日程表为例展示 PDF 表格抽取技术,想尝新 pdftools
工具的萌新目前需要手动编译安装新版 Poppler C++ 库,以 Ubuntu 18.04 为例,博主贴心地指出了其中可能遇到的坑,此处应有掌声!文本抽取和清洗用到的工具有 tidyverse
全家桶和正则表达式,看完这篇博文,你对原来很火的自然语言处理技术会有新的理解:洗数据 🚀
推荐人:黄湘云
链接:https://masalmon.eu/2019/02/11/trump-schedule/
推荐语:继 knitr::kable
和 kableExtra
之后,R 社区又出现一款制作表格的扩展包gt 意图支持最丰富的表格样式,支持在 R Markdown 中编辑,支持管道操作,可输出 HTML 和 LaTeX等格式,gt 主要由 RStudio 公司 的 Richard Iannone 开发,虽然目前还未提交到官仓 CRAN,但是维护者已经在 Github 上打码了2200+次,可谓相当活跃!最后分享一个 kableExtra 使用案例。
推荐人:黄湘云
链接:https://github.com/rstudio/gt
推荐语:条形图及相关的误差线及星号可能是科研中用的最多的图,但这却是一种很糟糕的数据可视化方法。历史上直接画出一组数是比较费事的,条形图及误差线是一种抽象折中的方法。然而其存在的基础现在已经不存在了,现在几乎所有作图软件都支持直接展示数据,而条形图更多可能成为掩盖异常点与分布细节的可视化手段。可视化与统计推断的关系非常艺术, Rafael Irizarry 教授给期刊编辑写了一封公开信,要求禁止掉所有条形图,可以用原始数据、箱式图或叠嶂图来替代。
推荐人:于淼
链接:https://simplystatistics.org/2019/02/21/dynamite-plots-must-die/
推荐语:我审稿时特别反感使用GUI软件的,因为我不确定他们有没有修改默认参数或点了什么不该点的,而我默认科研人员是需要知道数据处理细节的,单纯甩包给商业软件不利于学术交流,所以我经常建议作者提供数据处理源码来提高文章的可读性与扩展性。不过看来还有些人竟然用开源软件的免责条款来质疑别人使用开源软件的稿子, Thomas Lumley 大人一怒之下去挖了个坟,结果发现 SAS、Stata、SPSS、Stata、Minitab及全宇宙最流行的“统计”软件 Excel 统统都有免责条款,每一家都不保证没八阿哥,都是用户自己扛使用责任。其实软件好比摄影师的镜头,照片拍的不好让镜头担责任是可笑的,从来都是镜头后面那个头出的问题。
推荐人:于淼
链接:https://notstatschat.rbind.io/2019/02/18/absolutely-no-warranty/
请回复统计之都 Github 主站相关 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。
文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。
招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。
注:统计月报每月月初发表,月底前三天截稿转入编辑阶段,当月投稿不满十篇则合并入下月(或下下月直到够数)发表。
发表/查看评论