统计月读（2019 年 1 月）

推荐语：用 markdown 同时进行统计分析、画图、制表、写作学术论文并输出符合期刊格式的手稿已经不新鲜了，但更大胆的想法则是跳过期刊编辑直接生成带有交互的网页版学术论文，审稿也可以公开化用 Github 的代码评审来进行，Radix 包满足了上述要求，有希望成为下一代在线开放式同行评议期刊的前身，其实 Radix 包的先驱 distill 已经上线一年多了，另一个基于 python 绘图的学术论文平台 Authorea 也不错，至于说基于 LaTeX 的 overleaf，虽然原生支持很多学术期刊的一键投稿，但学习曲线摆在那，看看就好。

推荐人：于淼

链接：https://rstudio.github.io/radix/

推荐语：从图片中提取文字曾经是个手艺活，也是名副其实的脏活，OCR(Optical character recognition)引擎各有所长，一类是借助网络API来实现，例如调用 Google OCR 接口的 RoogleVision 包，当然 API 用多了你得付费；另一类则是本地使用原生训练好的开源模型，Tesseract 就是一个支持多国语言识别的 OCR 引擎，同名的 R 包可配合 magick 包进行图片文字的提取，进一步配合分类神器 taxize 包，你可以逐步实现基于图片文本的分类。这篇文章就展示了读取鸟类手绘图片然后通过文字识别进行自动分类识别的过程。

推荐人：于淼

链接：https://ropensci.org/blog/2018/08/28/birds-ocr/

推荐语：算法的表现通常会受训练集数据的影响，具体到自动驾驶这个问题就会存在电车难题，那么算法应该保全哪一方呢？MIT的研究人员调查了全球不同文化上万人的选择偏好，结果发现文化差异本身就会造成决策的不同，也就是说，就算是人工智能也需要考虑算法区域伦理，在不同的文化区中同一事件自动驾驶系统需要考虑当地风俗给出不同的对策。在真实统计模型的构建之中，微软小冰就曾经因为种族歧视及脏话而下线，而这篇文章则告诉我们，除了大是大非，文化差异也将会成为人工智能模型构建的重要考虑因素，而基于回答聚类构建的三大文化区也很有意思。

推荐人：于淼

链接：https://www.nature.com/articles/s41586-018-0637-6

推荐语：等待时间悖论是一个奇特的现象，假设某车站约每10分钟会到达一辆公交车，那么我们抽样乘客的等待时间期望应该是5分钟，但模拟的调查结果却会是10分钟。在这里抽样询问等车时间的过程是无法做到等概率的，也就是说，如果当前这趟车上车了一组人，等待时间长的那个更可能被抽样到，而假设某个人天天卡点上车，那么我们抽样到这个人的概率几乎为0.作者通过模拟说明了抽样等待间隔实际上更符合指数分布，结果就是等车间隔其实是个泊松过程，对历史没有记忆。也就是说，无论你这次什么时候到，哪怕前一辆车刚走，等待时间的期望都是固定的。作者进一步用西雅图的真实数据进行了验证，结果发现等待时间间隔并不符合指数分布，真实平均等待时间会比预计时间间隔的一半长一些但不是两倍，也就是说我们提了一个好问题，问题也真实存在，但看似严谨的解释却不一定符合真实数据。此外，作者的模拟验证是python实现的，感兴趣的同学可以用R来尝试。

推荐人：于淼

链接：http://jakevdp.github.io/blog/2018/09/13/waiting-time-paradox/

推荐语：如果你十年前就在用R，那么你可能错过了很多最近开发出来的工具，知名吐槽王 Karl Broman 教授倾心打造了一个页面，用来整理十年来R增加的很酷的功能。不过，你也能从这里想象一个没有 RStudio、tidyverse、knitr、并行计算、Rcpp、变量名下划线等的 R 语言史前时代是怎样的，长城一天建不出来，了解编程语言的发展历史能帮你理解其流行的秘密。

推荐人：于淼

链接：http://kbroman.org/hipsteR/

推荐语：Netflix 是一家坐拥来自190个国家和地区1.3亿用户的在线视频服务商，如果你周围有很多 Netflix 的用户，你会发现给你们推送的同一部推荐电影或电视剧的缩略图完全不一样。这篇文章详细解释了 Netflix 的缩略图个性化推荐系统，不同于传统的收集-建模-评估-上线的批次机器学习与从影视公司获取海报，Netflix 使用了在线机器学习系统且单个电影的缩略图库的生成也是完全依赖算法与A/B测试，这使得用户选择会实时更新模型预测结果，同时用户的观看历史也会直接影响自己将看到的缩略图。总之，Netflix 在尽一切可能让用户产生互动并继续看视频，而商业需求对技术的要求其实是非常苛刻的。

推荐人：于淼

链接：https://medium.com/netflix-techblog/artwork-personalization-c589f074ad76

推荐语：生物组学领域似乎人人都在写代码、收集和分析数据，但没多少人在意软件的易用性（甚至是可用性）以及历史存档的稳定性。有人分析了生物组学过去十七年的两万多个软件资源，发现已经有 26% 的软件无法通过其论文给出的网址访问；作者选取的部分软件深入研究发现，有 49% 的软件极难安装，还有 28% 的软件无法安装。作者还发现如果软件容易安装的话，其论文被引用次数会大幅增加。这可能可以给众多生物坑里的码农一个提醒：代码写得再优秀，用户难以或无法安装都等于零。论文发表后，也要保障将来别人能持续访问你的软件。

推荐人：谢益辉

链接：https://www.biorxiv.org/content/early/2018/10/25/452532

推荐语：数据科学家如何买房子？答案是写一个个人房产推荐系统。这篇文章的作者将自己构建个人房产推荐系统的步骤详细记录了下来，除了感叹作者扎实的地理信息系统功底与当前品类齐全的应用程序接口，能拿到高质量的数据也是很重要的。不过作者最后也提到，未来依靠个人构建推荐系统现在并不实际，但在社区尺度上变成现实还是有希望的。不过对于低频购买的商品例如喜糖、房子、汽车，我感觉统计模型总会是欠拟合的，可能基于规则的模型会更适合。

推荐人：于淼

链接：https://medium.com/geoai/house-hunting-the-data-scientist-way-b32d93f5a42f

推荐语：当数据量很大以后，可视化就成了问题，如何展示100个点是容易的，展示100万个点就不是一个概念了。当学术界还坚守主成分分析的阵地时，工业界已经用流形分析的方法了，例如t-SNE。这篇文章则提出了基于 UMAP 与 LargeVis 的深入散点图来二维可视化巨量数据，作者也将代码开源了。所谓学科前沿是一个很模糊的东西，我感觉只要没完美解决的问题在哪里，哪里就是前沿。

推荐人：于淼

链接：http://creatingdata.us/techne/deep_scatterplots/

推荐语：统计之都曾经发布过制作自己 R 包的文章，但除了包开发本身，很多习惯的养成可以让你的包更容易被别人接受，这里包括但不限于用 Git 进行版本控制、用 Travis CI 与 Appveyor 对包进行持续集成、写小品文、进行单元测试并统计代码覆盖率、在 Github 上发布、选择许可证、在 CRAN 上发布、用 roxygen2 写文档、用 formatR 格式化代码增加可读性、添加演示数据、提供 shiny 应用、写更新日志与 Readme 文档且放上前面所说的测试结果、下载量及覆盖度的各类徽章…你甚至还可以用 hexSticker 给自己软件包做个六边形贴纸当商标。这篇文章以 usethis 包为核心讲解了一些 R 包开发周边应该注意的事，也可当作 R 包开源社区识别自己人的指南。

推荐人：于淼

链接：http://johnmuschelli.com/neuroc/getting_ready_for_submission/index.html

推荐语：当我们在讨论数据可视化时，评判标准似乎是很主观的。不过一个人的主观是主观，一群人的主观都类似就有规律可循了。那么科学家如何来判断可视化的好坏呢？这篇文章从认知科学家角度解释了可视化的科学测量与评价方式。可视化的好坏或可通过测量“脑力”（mental effort）来判断，好的可视化看起来更不费劲。而实验设计也比较巧妙，例如多任务实验。读这类文章有种感觉他们在做EM算法，通过可测量的量来推断背后感兴趣的量。

推荐人：于淼

链接：https://medium.com/multiple-views-visualization-research-explained/how-do-we-know-when-a-visualization-is-good-c894b5194b62

推荐语：很多人读过网络皇帝巴拉巴西的《链接》与《爆发》，可能深深地被无尺度网络特性所吸引，不过这位呼声极高的诺奖潜在得主有个克星，来自加州理工的 Lior Pachter 教授。他曾经在博客上连载过三步曲，把网络科学从基础到应用批了个狗血淋头，目测要被巴拉巴西恨一辈子。不过最近他的一篇博文却指出了如何四分钟内写篇论文，相信各位看官应该想到了，靠的就是自动生成的报告。具体来说就是西奈山医学院的一个研究组开发了一个工具biojupies，上传或直接调用已发布的RNA测序数据后自动进行常见的统计分析，是基于 Jupyter Notebook来进行的，还开发了 Chrome 的插件。我估计基于 Rmarkdown 与 Shiny 来实现应该也可以，就是测序数据比较大，不知道后台能否跑得动。这个想法虽然看起来只是功能组合，但这是一个明显的趋势，科研实验自动化后数据分析也会最终自动化，数据分析的技术进步与标准化会使得科研也许不再需要民工做排列组合，那么又需要什么呢？

推荐人：于淼

链接：https://liorpachter.wordpress.com/2018/12/18/how-to-write-a-paper-in-four-minutes/

推荐语：人脸识别技术已经很成熟了，不过AI生成假人脸的技术也越来越成熟了，这里有一份识别假人脸的指南。不过我觉得用不了多久，这份指南就会作为AI的升级指南而过期。仿真数据可以产生大量冗余信息，如果有人对当前算法数据收集阶段进行冗余干扰，可能会严重影响模型的倾向性。那么，未来会不会形成新的职业，用来鉴别原始数据的仿真冗余？

推荐人：于淼

链接：https://medium.com/@kcimc/how-to-recognize-fake-ai-generated-images-4d1f6f9a2842

推荐语：现代认知心理学研究越来越依靠统计学与机器学习技术进行研究。过去认知神经科学的理论基础之一是计算机隐喻，即认为人是以类似计算机对输入信息进行加工的方式来认识世界的。现在随着机器学习在学术界越来越广为人知，认知心理学界为了理解大脑中潜在的加工过程，开始建立计算模型（computational models）来描述这种加工过程，并且通过对心理学实验收集到的数据进行测试来验证这些模型的可靠性。这种研究思路的优势在于，能够使得认知心理学家更精确地去理解和验证他们对人的心理过程的假说。

推荐人：夏骁凯

链接：https://www.nature.com/articles/s41593-018-0210-5 DOI：10.1038/s41593-018-0210-5

推荐语：探索现象规律有两种基本法则，一种是自上而下基于规则演绎，另一种则是自下而上基于事实或仿真数据归纳。前一个门派精于公式推导而后一个门派精于采样技术与仿真。很多学科的新发展契机往往是伴随技术特别是计算能力的提升而出现的，很多复杂现象的解释与预测工作也逐渐从机理模型过渡到统计仿真模型或个体为本模型（agent-based model），白箱模型变灰变黑似乎是很多学科的发展趋势。David Robinson 最近的一篇博文就用仿真模拟的方法来解决一个国际象棋问题：当马走二十步后，有多大概率回到原点？推荐这篇的原因在于博主很清晰地描述了解决仿真问题的探索思路，属于授人以渔的范本。

推荐人：于淼

链接：http://varianceexplained.org/r/knight-chess/

招聘： COStudy心理学项目

岗位介绍：上海市精神卫生中心“心理健康与脑影像研究室”数据科学家 2-3 名

主要工作：开展脑影像、脑电、认知行为方面的数据分析和统计建模，寻找心理发展、精神疾病的相关行为特征或神经机制，为临床治疗提供客观依据。

岗位要求：

基本要求：最低学历要求为硕士（包括在读），要求具有扎实的数学和统计学知识及数据分析能力，能熟练使用至少一种编程语言（如R，Python，Matlab）完成数据分析工作。能连续工作6个月以上。
优先考虑：熟悉多元统计分析模型（聚类分析、独立成分分析、典型相关分析）、数据拟合方法（生长曲线模型，如GAMLSS）、或监督学习模型（SVM，GNB等模型）；具有良好数学基础，能够学习和掌握统计模型的原理。

实习回报：

基本工资3000-6000元/月（具体薪酬按研究水平与工作量确定），可根据工作成效获得额外奖励，可安排宿舍。
有专职科研人员带教，能够迅速提高个人在脑科学方面的研究能力。
有工作成效者，实验室将为其发表论文提供资源和帮助。

工作地点：上海市精神卫生中心

实验室简介：心理健康与脑影像研究室致力于：1）精神健康相关的大规模脑成像数据挖掘；2）儿童青少年脑发育与精神健康研究。实验室主任为杨志，认知神经科学博士，研究员，上海交通大学医学院博士生导师，上海交通大学心理与行为科学研究院特聘研究员，上海市精神卫生中心神经影像平台负责人。先后毕业于清华大学（本科）、中国科学院心理研究所（博士）、美国Emory大学（博士），美国国家精神健康研究所（博士后）。在国际学术期刊发表研究论文三十余篇，获得国家发明专利一项，主持国家自然科学基金三项，研究成果获得教育部科技进步一等奖、北京市科技进步二等奖，获得上海市卫计委优秀学科带头人、上海交通大学“晨光”优秀学者等称号。

联系方式：yangz@smhc.org.cn 杨志研究员

相关链接：https://mp.weixin.qq.com/s/dLaA9DrB0B1va2LtcE2bWQ

请回复统计之都 Github 主站相关 issue 进行文章推荐与招聘投稿，内容须与统计/数据科学相关，是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐，如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

注：统计月报每月月初发表，月底前三天截稿转入编辑阶段，当月投稿不满十篇则合并入下月（或下下月直到够数）发表。