当前,我们生活在一个信息爆炸的时代。每天,信息的洪流从四面八方涌入,影响和改变着人类生活的方方面面。但与此同时,人类从浩如烟海的信息中获得有价值的信息变得非常困难。那么,究竟如何从海量信息中准确提取出有价值的信息,挖掘分析信息背后的关系,为我所用?这就涉及到一项蕴含巨大价值的核心技术——数据挖掘。
2015年11月,被誉为“中国智能科技最高奖”的吴文俊人工智能科学技术奖获奖名单揭晓,何清以大数据挖掘算法与云服务方面的创新研究成果获得了科学技术创新二等奖。作为中国人工智能学会副秘书长、中国电子学会云计算与大数据专家委员会委员、中国科学院计算技术研究所研究员,何清在数据挖掘领域孜孜耕耘十五年,坚持用自主创新引领行业发展之先,取得了累累硕果。
何清于2000年进入中科院计算所智能信息处理重点实验室从事博士后研究工作。当时,我国在海量数据挖掘方面的成果还十分薄弱,而何清以科研工作者特有的敏感,意识到数据挖掘作为一种基于人工智能的决策支持过程,必将随着人类社会信息量的爆炸式增长而发挥越来越重要的作用。他决心在这方面探索突破,以填补国内在该领域的空白。
“科研工作者的使命就是用专业知识预测发展方向,经过深入研究寻求突破,最终通过成果转化引领行业发展、推动社会进步。”多年来,何清带领着他的团队,脚踏实地,一步一步地实现他的科研梦想,在人工智能领域留下了一项项沉甸甸的科研成果:何清团队自主创新提出了基于超曲面的系列机器学习算法。在算法研究过程中逐步形成了极小样本集理论,揭示了覆盖类学习算法测试集分布必须与训练集分布一致才能达到理想的学习效果,找出了影响分类准确率的内在原因,准确计算出与实验结果一致的基于超曲面的分类算法准确率。他提出了一种并行的基于超曲面的适应任意分布的极小样本集抽样算法,带领团队开展一项极具特色的迁移学习研究,解决了领域迁移时如何很好地把学习到的模型迁移到新领域的问题。同时,他首次把极端学习机用于分类、聚类,并提出并行极端支持向量机算法,实现了高效并行的增量分类学习算法。在机器学习与数据挖掘算法研究基础上,面向大数据注重单机时挖掘数据量大、并行效率高的算法的并行化,他提出了一系列大数据挖掘的算法。特别在颇具难度的聚类问题上,何清团队提出了基于MapReduce的并行聚类算法的具体并行方法和详细策略,相关论文很快被他人引用达300多次。
数十年来,何清承担并圆满完成国家重点基础项目(973计划)2项子课题,承担完成的863项目3项获得好评,承担完成或参加完成的国家自然科学基金项目5项被评为优或特优,获得北京市科学技术奖1项。截至目前,他的团队在IEEETKDE、IEEETIT、KDD、CIKM、ICDM、AAAI、IJCAI等国内外重要刊物和会议上发表百余篇学术论文,其中SCI检索论文45篇,CCF A类论文12篇,Google Scholar显示课题组发表论文被国内外同行引用1831次,SCI他人引用188次。申请专利15项,授权11项,获得软件著作权14项。在专注科研的同时,他也为人工职能领域培养了大量优秀学生。他指导的学生获得2013年中国人工智能学会优秀博士学位论文奖。
特别值得关注的是,早在2008年底,何清带领他的机器学习与数据挖掘团队,开发完成了国内最早的基于Hadoop的并行数据挖掘等系统PDMiner用于中国移动TB级实际数据挖掘,该系统完成3年后,国际上开源系统Mahout才启动。此项创新使我国获得了自主知识产权的基于云计算的数据挖掘技术,目前已推广到电信、环保、物联网、国家电网、信息安全、证券等领域的大数据挖掘,为企业带来了可观的经济效益。其典型应用是通过采用他们的大数据挖掘技术,使得上海证券交易所在发现“老鼠仓”这些违规交易的工作中效率从过去的几个小时缩短到分钟级。何清也因此受邀在第二届和第三届第六届中国云计算大会上作了技术报告,在技术上推动和引领了大数据挖掘技术在多个行业的应用。(刘尧)