本期投稿:谢益辉 施涛^[编者注:该链接已过期] 朱雪宁 王小宁
国际权威的学术组织 The IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, 和 CART ,相关的论文在这里。 最近有人把这些算法用R实现了。
前两天有关疑似MH370 遗骸的消息登上各大新闻头条,信息真假还未得知,其实早在今年三月份CNN报道得克萨斯A&M大学的数学家宣布,他已通过一台计算机上运行的数据,并确定它是有可能的飞机已经垂直坠入海洋,请参看这里。
一位2013年毕业于杜克大学的同学总结的今年在Coursera 上关于约翰霍普金斯大学数据科学课程的笔记,有志于上此系列课的童鞋可以先看看哦!小编提醒,新的一轮数据科学课程也从8月3日开始了。
一篇关于R语言进行并行计算的深度好文。
广义线性模型(GLMS)在数据科学工具箱中不可或缺的工具。它们是适用于涉及很多现实世界的问题,连续数据,计数和生存数据(及其他)。模型本身是直观的,并且可以被用于推断和预测。一些非常高品质的免费软件和开源软件的实现方式是可获得的如R。
最近比较火的一篇文章,UCLA的一个学生伪造了数据发了一篇Science文章,后来被别人发现,被撤稿了。这里面的侦察过程有点意思,参见文中的PDF报告链接。
发表/查看评论