COS访谈

COS访谈第33期：刘三震老师

刘三震 / 谢益辉 / 2017-09-07

这篇访谈的形式很特别，是在论坛回帖中完成的，整理得以下对话。原帖见这里。谢：今天我们有幸请到了堪萨斯州立大学植物病理学系的刘三震老师为大家分享他的留学和工作经历。此前先交待一下背景信息。刘老师和我都是爱荷华州立大学（ISU）毕业生，他生物，我统计，但正式碰面则是毕业几年后的事了。今年 3 月初我受邀去刘老师任职的系访问两天，顺便了解了一下他的工作。我的生物知识有限，当时说到的一些细节问题我也记不……

新闻动态

COS每周精选：数据挖掘中的十大算法

谢益辉 / 施涛 / 朱雪宁 / 王小宁 / 2015-08-03

本期投稿：谢益辉施涛^[编者注：该链接已过期] 朱雪宁王小宁国际权威的学术组织 The IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes,……

推荐文章

[朝花夕拾] 迎接信息时代的统计挑战

施涛 / 2014-05-14

本文略有修改，原文请点击此处本文作者为俄亥俄州立大学的施涛。他把自己读郁彬老师的综述性文章：Embracing Statistical Challenges in the Information Technology Age的读后感和大家分享。世事变迁，最近居然忽然有时间坐下来读些东西，重新审视一下这几年统计领域的发展了。粗略回想了一下，惭愧地发现我好像连博士导师的文章也没有系统地读过几篇，只……

新闻动态

COS每周精选:Simply Statistics为你解释GMM

霍志骥 / 2013-10-29

本期投稿冷静肖楠魏太云谢益辉 […] 统计学家在其他领域大放异彩已经不是什么新鲜事，最近公布的三位诺贝尔经济学奖获得者之一，Lars Hansen，就是其中一员。有趣的是，因为Hansen 的理论过于复杂以致于众多新闻报道乃至经济学评论都对他的成果支支吾吾，一带而过。以至于Chicago Magazine 称之为the forgotten Nobel Prize……

统计应用

分类器评价、混淆矩阵与ROC曲线

阿稳 / 2011-09-16

本文转载自阿稳的博客，原文链接请点击此处。本文主要介绍了数据挖掘中分类器的评价指标，以及混淆矩阵、ROC曲线等内容。作者简介：阿稳，豆瓣，算法工程师。感兴趣的领域：推荐系统，数据挖掘，算法架构及实现的可扩展性，R环境编程。博客http://www.wentrue.net/blog/。假定你基于贝叶斯理论、神经网络或其他技术建立了自己的分类器。你如何得知自己是否干了一项漂亮的工作呢？你如何得知是……

新闻动态

首届全国大学生数据挖掘邀请赛圆满结束

统计之都 / 2011-05-16

2011年5月8日，来自浙江大学、厦门大学、复旦大学、浙江大学、北京大学、东南大学、中山大学、北京航空航天大学大学等多所高校的获奖队伍聚集于中国科学技术大学进行比赛的最终答辩环节，确定了最终的名次和奖项，标志着经过一个多月的群雄逐鹿，首届全国大学生数据挖掘邀请赛终于圆满结束。首届全国大学生数据挖掘邀请赛是由中国科技大学管理学院、中国人民大学统计学院和统计之都发起并主办，由上海花千树信息科技有限公……

新闻动态

通知：首届全国大学生数据挖掘邀请赛

邱怡轩 / 2011-03-20

[…] Amazon的数百万图书，Netflix的10万部电影，淘宝的8亿件在线商品，以及数以亿万计用户的资料和行为记录……互联网最近十年的迅猛发展伴随着海量数据的积累。然而，在线用户常常面对过多的选择而显得无所适从。心理学研究证实，这类情境下的用户有时会做出放弃交易的决定，从而造成大量潜在的用户流失。针对这一现象，统计技术的发展能够为在线服务商提供更有效的推荐算法，在帮助用户走出……

推荐文章

我的求学之路：经济学、软件工程、SAS

胡江堂 / 2009-08-09

这个青年的经历，只代表他个人，没有任何群体的意义。我想写下一段自白,这自白既是我个人的,也具有普遍意义,因为一个人经历过的事情所有的人都可以经历。 […] 跟武汉博文视点合作，召集些身边的朋友，2009应届生，计算机背景，在毕业之前，讲讲自己求学、实习、找工作等的经历与感悟，文章将由电子工业出版社结集出版，在今天秋季学期开学之前出来。我是主编，也是作者之一，刚好经历跟大伙有重叠：经……

机器学习

COS竞赛：英文站点会员类型的识别

谢益辉 / 2009-03-17

大家好，为了促进大家对统计之都的了解，并锻炼各位会员的统计应用能力，即日起我们推出“COS竞赛”系列活动。第一期活动的主要任务是分析统计之都英文网站（https://cos.name/en/）的会员数据，从中找出识别正规会员和机器人（垃圾、广告、自动注册）会员的规律。 […] 原始数据来自phpBB论坛的phpbb_users数据库，其中包含用户id、用户名、是否激活、Email、发……

机器学习

分类模型的性能评估——以SAS Logistic回归为例(3): Lift和Gain

胡江堂 / 2009-02-18

书接前文。跟ROC类似，Lift（提升）和Gain（增益）也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来，也有跟一个baseline model的比较，然后也是很容易画出来，很容易解释。以下先修知识，包括所需的数据集： […] 说，混淆矩阵(Confusion Matrix)是我们永远值得信赖的朋友：……

机器学习

分类模型的性能评估——以SAS Logistic回归为例(2): ROC和AUC

胡江堂 / 2008-12-31

上回我们提到，ROC曲线就是不同的阈值下，以下两个变量的组合（如果对Sensitivity和Specificity两个术语没有概念，不妨返回，《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》，强烈建议读者对着看）： […] Sensitivity（覆盖率，True Positive Rate） 1-Specificity (Specificity, 负例……

机器学习

分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵

胡江堂 / 2008-12-25

跑完分类模型（Logistic回归、决策树、神经网络等），我们经常面对一大堆模型评估的报表和指标，如Confusion Matrix、ROC、Lift、Gini、K-S之类（这个单子可以列很长），往往让很多在业务中需要解释它们的朋友头大：“这个模型的Lift是4，表明模型运作良好。——啊，怎么还要解释ROC，ROC如何如何，表明模型表现良好……”如果不明白这些评估指标的背后的直觉，就很可能陷入这样……