5月11日,我校校友、美国罗格斯-新泽西州立大学商学院熊辉副教授应邀来学院访问并作学术报告。
5月11日晚7时,熊辉副教授在西区3321教室作题为“Efficient Discovery of Confounders in Large Data Sets”的学术报告。安徽省政协副主席、管理学院方兆本教授和计算机学院的部分师生参加了报告会。报告会由陈恩红教授主持。
陈恩红教授首先向大家介绍了熊辉博士的经历与现状,并对熊辉博士的到来表示热烈欢迎。熊辉博士用风趣幽默的语言表达了再次回到母校作报告的心情,这引起了同学们的阵阵笑声。报告会在轻松愉快的氛围中开始。
熊辉博士报告的主要内容是关于他2009年在ICDM会议上发表的一篇关于数据挖掘中相关性分析算法的文章《Efficient Discovery of Confounders in Large Data Sets》。他首先介绍了文章背景。相关性分析作为数据挖掘中的核心问题,已经被成功应用于众多领域,如基于过去销售信息的产品推荐系统、不同地理位置大气现象相关性研究、公众健康等等。相关性常常隐藏在海量的数据中,而对于相关性计算问题,很多统计技术只能用于小样本,不能应付大规模计算的要求。这篇文章提出了一种高效算法,可以识别混杂因素,计算局部相关性。
算法介绍部分,熊辉博士从介绍“辛普森悖论”这个概念说起,用加州大学伯克利分校被妇女团体以招生中有性别歧视为由告上法庭这个例子,说明在分析数据相关性时如果只看全局不看局部就会犯错误,反之亦然。接着,他介绍了全局相关性和局部相关性的概念,并比较了传统的Brute-Force、动态规划算法和文章中的CONFOUND算法的效率。CONFOUND算法仅存储对使用者有用的信息,大大减少了对时间和空间的消耗,并且数据集规模越大效果越好。
报告结束后的提问环节中,方兆本教授询问了相关的研究进展并表示了浓厚兴趣。同学们踊跃举手发言,提出了经验值如何确定、参数变化对实验结果的影响等问题。熊辉博士详细解答了同学们的疑惑,并与大家分享自己的研究心得。他说,他最喜欢阅读新文章,并且将之转化为数学问题,从中获得新想法。作为数据挖掘方面的研究人员,他最高兴的就是可以拿到具有新特性的数据,从而改进为自己的算法。熊辉博士还向同学们介绍了已投入使用的移动推荐系统(Mobile Recommend System)。该系统利用美国旧金山出租车中车载GPS所记录的信息,从效益好的司机处总结经验并推荐给效益不好的司机,以提高出租车公司的效益。
在一个小时的报告会中,熊辉博士用生动有趣的案例和深入浅出的语言向大家展示了自己的工作成果。报告会最后,大家以热烈的掌声再一次对熊辉博士的精彩报告表示衷心感谢。
报告人简介:
Dr. Hui Xiong received his Ph.D. from the University of Minnesota and the B.E degree from the University of Science and Technology of China (USTC). He is currently an Associate Professor at Rutgers University, where he received a two-year early promotion/tenure (2009), the Rutgers University Board of Trustees Research Fellowship for Scholarly Excellence (2009), an IBM ESA Innovation Award (2008), the Junior Faculty Teaching Excellence Award (2007) and the Junior Faculty Research Award (2008) at the Rutgers Business School. His general area of research is data and knowledge engineering, with a focus on developing effective and efficient data analysis techniques for emerging data intensive business applications. He is an Associate Editor of the Knowledge and Information Systems journal. He has served regularly in the organization committees and the program committees of a number of international conferences and workshops. More detailed information is available at http://datamining.rutgers.edu.