数据挖掘竞赛

竞赛背景

Amazon的数百万图书，Netflix的10万部电影，淘宝的8亿件在线商品，以及数以亿万计用户的资料和行为记录……互联网最近十年的迅猛发展伴随着海量数据的积累。然而，在线用户常常面对过多的选择而显得无所适从。心理学研究证实，这类情境下的用户有时会做出放弃交易的决定，从而造成大量潜在的用户流失。针对这一现象，统计技术的发展能够为在线服务商提供更有效的推荐算法，在帮助用户走出信息过载困境、改善用户体验的同时，还能够挖掘商品长尾、提升企业价值。在今天，用户不再局限于通过搜索引擎来寻找感兴趣的信息，推荐系统无所不在地为我们发现自己的潜在需求。

推荐系统在社交网络中的应用同样受到业界重视。本届统计建模竞赛由上海花千树信息科技有限公司赞助，由中国科学技术大学管理学院、中国人民大学统计学院和统计之都（COS）网站联合举办，目标是为某个以婚恋为目的的大型交友网站提供会员推荐的智能算法，改善会员推荐的精度，增加网站黏度。

参赛资格

诚邀国内所有高校及研究所的在校本科生、硕士生和博士生组队参赛，专业不限。每个参赛队伍人数不超过4人（包括队长），允许跨校、跨年级组队。每人只能参加一支队伍，如需要解散队伍后重新组队以调整人员构成，请用邮件向竞赛委员会说明。为方便管理，每支参赛队请在注册时选定一位队长，并提供email地址及联系电话用于联络。请填写参赛队成员的基本信息（学校、院系、年级、学号等），这些信息可以通过竞赛页面进行管理。以上信息将会保密并不会被用于商业用途。

考虑到参赛人员的知识水平及竞赛的公平性，本次竞赛分为本科生组和研究生组，分开进行评分。如果本科生和研究生混合组队，则在竞赛中被视为研究生组。

参赛时间

在线注册：2011年3月19日~2011年4月15日
比赛开始：2011年3月22日
比赛结束：2011年4月27日

参赛队伍在规定时间内完成注册后，即可参加本次竞赛并获取建模数据集。在4月27日竞赛结束之日前，可随时提交预测结果（每日限10次，提交格式详见竞赛主页相关说明）。

参与方式

本次竞赛的主页为http://www.statmodelingcompetition.com/。数据的下载及说明，参赛队伍的注册，结果的提交等都在竞赛主页进行。

在线排名

本次竞赛提供了在线排名系统，供参赛队伍检查模型预测效果。用于在线排名的数据是实际测试数据的子集，因此在线排名并不代表实际的模型评分。

竞赛相关问题咨询

请先阅读常见问题解答，如果疑问依然存在，请到统计之都论坛的竞赛答疑专帖进行提问。允许的问题包括竞赛题目本身、数据、网站访问和比赛流程等，非此类问题（如算法细节）将不予答复并删除。

奖项设置

本科生组：

一等奖一名，10000元/队
二等奖一名，5000元/队
三等奖三名，2000元/队
入围奖三名，500元/队

研究生组：

一等奖一名，10000元/队
二等奖一名，5000元/队
三等奖三名，2000元/队
入围奖三名，500元/队

为保证公平，本科生组和非本科生组将分别进行评审和排名。非本科生组的模型需至少达到本科生组入围奖模型的效果时，才能获奖。为确保算法的真实有效性，有资格入围的队伍需进行答辩，并提交论文和程序源代码，否则不能获得该项奖励。答辩名单确定后，外地答辩队伍的差旅费用由竞赛委员会承担（每队限一人）。答辩地点另行通知。

主办单位

中国科学技术大学管理学院
中国人民大学统计学院
统计之都
上海花千树信息科技有限公司提供赞助
竞赛委员会邮箱：dataminingcompetition@gmail.com

进一步的信息将在竞赛页面及本通知页面进行更新，请及时查看。

通知：首届全国大学生数据挖掘邀请赛

邱怡轩