我校学子在首届全国大学生数据挖掘邀请赛中获佳绩

发布时间:2011-05-18浏览次数:22

 

  5月8日上午,首届全国大学生数据挖掘邀请赛复赛答辩环节在中国科学技术大学东校区管理科研楼1018室举行,来自中国科学技术大学、北京大学、浙江大学、复旦大学等全国多所著名高校和中国科学院自动化所的16支参赛队伍,从参加初赛的300多支队伍中脱颖而出,参加了本次复试答辩。

我校研究生在复赛中进行答辩

 

  由我校计算机学院语义计算与数据挖掘实验室负责人陈恩红教授指导,以宝腾飞、向彪,刘淇三位博士生为主力的RecSys1队获得了研究生组第一名的优异成绩。同时,该实验室的徐童、曽广翔等研究生同学所组成的数据掘金队,以及解浚源等同学组成的LightSpeed队,分获研究生组和本科生组第三名。

 

  此外,来自我校少年班学院和管理学院的同学还获得了本科生组第六、七名。至此,历时五周的首届全国大学生数据挖掘邀请赛正式落下帷幕。我校以一项一等奖、两项三等奖、两项入围奖的成绩,名列各参赛高校之首。

研究生组排名

本科生组排名

 

  首届全国大学生数据挖掘邀请赛由中国科学技术大学管理学院、中国人民大学统计学院和统计之都(COS)网站联合举办,交友网站“世纪佳缘”暨上海花千树信息科技有限公司赞助并提供技术支持。该项赛事是国内首个关于数据挖掘技术的全国性竞赛,体现了互联网领域新的技术热点和应用需求。同时,该项赛事也为来自不同学校、不同学科背景的同学提供了一个交流的平台。

 

  本次比赛分设研究生组和本科生组,参赛人数众多,影响范围广泛。本次比赛的主题为大型交友网站的个性化推荐系统,要求通过构造有效的统计评分模型,评估特定会员的受欢迎程度,并预测用户在面对被推荐会员时可能的浏览行为。算法预测结果以特定用户待选会员集评分结果前十名的实际浏览行为进行评估,即NDCG@10。由于本次比赛的数据存在稀疏性及冷启动问题,给各参赛队的数据处理和算法设计工作带来了较大的困难,这也是现有推荐算法所面临的主要难点,体现了本项赛事与实际应用紧密结合的特点。

 

  面对激烈的竞争,中国科大学生体现出积极的比赛风貌和扎实的实战技能。虽然在比赛的五个星期内排名更迭频繁,但我校的多支参赛队一直保持在排行榜的前列,其中RecSys1队曾连续近两周处于研究生组排行榜首位。针对稀疏数据和冷启动的数据特性,来自语义计算与数据挖掘实验室的同学们尝试了包括基于最近邻的协同过滤算法、PageRank排序算法、E-Greedy排序算法、关联规则挖掘在内的多种经典算法,最后,在RankSVM和Bayesian Regression Tree等算法的基础上引进了简单投票算法,有效地提升了预测结果,在提交结束时的40%验证数据集上排名研究生组第二名,最后凭借算法优秀的稳定性和精确性,在完整的测试数据集上成功超越了对手,最终摘取桂冠。