科技情报大数据挖掘及服务平台(AMiner)建立了超过2.3亿学术论文、专利和1.36亿学者的科技智库。 |
毫无疑问,搜索引擎是互联网诞生以来最重要的发明之一。每天,我们的工作和生活都离不开搜索。但对于张启飞而言,普通的搜索早就不能满足他对学术研究的要求了。
作为一名计算机学科的科研人员,张启飞认为,“如果只是为了找些数据信息的话,一般的搜索引擎就可以了。但很多时候,我们需要对数据分析理解后的知识,而不是大量罗列的数据。比如我们想了解多个技术领域的发展趋势、当前的技术热点,以此确定自己的科研规划;或者需要找到与某一个专家相似的一批专家来组织一次学术会议等。这些信息,需要对科技文献、学者、会议等科技大数据资源进行整合,构建内部关联关系,深入分析挖掘,进而形成经过理解和组织的知识,并且能直观地展示出来”。
AMiner解决了张启飞的痛点。“在AMiner除了能够得到相关的论文,还能够基于话题模型抽取出最权威的领域专家和顶级会议,给出全面的专家学术画像,包括专家历年研究兴趣发展变化趋势、专家关系网络、学术活跃度及影响力评价等,分析当前技术热点及其从最早提出至今的相关技术发展变化等。最新最全,一目了然。”张启飞说。
据了解,科技大数据资源的知识发现服务搜索系统AMiner由清华大学计算机科学与技术系副教授唐杰率领团队建立,它是具有完全自主知识产权的新一代科技情报分析与挖掘平台。该平台建立了超过2.3亿学术论文、专利和 1.36亿学者的科技智库,提供面向科技文献、专家学者和学术活动的语义搜索、语义分析、成果评价等知识服务。
“我们通过对科技文献、专家学者、学术活动等科技大数据进行分析挖掘,获得价值信息,比如某个技术领域的不同层次人才都有哪些?人才在全球的分布如何?当前某个技术领域的前沿技术有哪些?不同科技公司之间的技术优劣势对比分析等。这些价值信息对于科研机构或科研人员明确科研方向,解决科研难题,加速科技创新及产品升级等具有重要意义。”唐杰告诉记者。
AMiner自2006年上线,经过十余年的研究和应用,探索出了一条面向异构科技情报网络的深度挖掘和知识服务的新途径。用户覆盖全球220个国家和地区800多万独立IP用户。核心技术应用于中国工程院、科技部、国家自然基金委、华为、腾讯、搜狗、阿里等20余家单位,2017年被三位院士领衔的鉴定委员会评价为“对加速科技创新具有重要意义”“在高质量语义内容生成、网络实体隐含语义及关联关系挖掘方面达到世界领先水平”。该项目也获得了2017年北京市科学技术奖一等奖。
挑战重重 亟待探究科技大数据挖掘的新途径
现在是大数据的时代,也是科技大数据爆发的时代。
科技大数据记载着科学技术的发展和进步,对其进行深入挖掘,对于掌握科技发展动态,让科技成果服务于国家安全、经济发展和人民生活,占领下一代科技信息知识服务的技术制高点具有重要的战略意义。
“与普通大数据相比,科技大数据具有规模大、增长快、数据多样、动态变化等特点,同时科技大数据有一个突出的特点是价值巨大。”唐杰说。
众所周知,科技文献是科研工作者智慧的结晶,个体数据本身便已经具有重要价值,而将海量的科技数据集合起来进行深入挖掘,更能发现大量隐藏的价值信息,掌握科技发展的深层规律,对于加速科技创新,推动科技产业发展具有重要作用。
然而,互联网环境下科技信息资源具有规模大、分布及异构等特点,通用搜索技术在科技情报信息挖掘方面的服务能力有限,亟待探究新的技术途径。然而数据中语义的匮乏仍严重制约着科技情报分析的进一步发展。国际数据公司(IDC)和高德纳公司(Gartner)等权威机构的分析报告指出,目前大数据仅3%的数据包含语义标注信息,深层次语义分析和挖掘是国际公认的技术难题。
“更难的是,还要构建数据之间的内在联系,挖掘发现知识的产生、传播和产业化的深层规律。”唐杰表示,“这也是我们设计AMiner的初衷。AMiner是一个开放的平台,我们希望能集合中国乃至世界领域科研人员的智慧,共同解决这一难题,推动科技情报分析和智能知识服务的产业发展。”
精准匹配 为科技大数据“画像”
谈及项目研发中遇到的最大技术挑战,唐杰表示,“构建科技文献与专家学者之间的归属关系(我们称之为命名排歧)是本领域一个核心关键问题,也是一个公开的世界级难题。”
学者同名是一个普遍现象,尤其在中国,例如像张静这样的名字有20多万,再考虑到实际论文中作者姓名的拼写格式多样,不同的中文名字也会对应于同一个拼写。所以命名排歧的难度会进一步增加。
项目团队在该问题上进行了长期的技术攻关,从合作者、单位、研究领域、名字出现频率等多个方面进行评判,取得了多项技术成果,申请了相关发明专利10余项,相关技术已经应用于构建AMiner系统平台中1.3亿学者与2.3亿论文文献之间的归属关系,效果良好。
“我们在知识图谱构建、隐含语义分析、情报快速匹配与决策服务等方面取得了一定的技术突破。”唐杰自豪地说。项目团队提出的动态关系依赖的概率图语义标注方法,降低了语义识别错误率,可以实现从开放互联网获取结构化知识。
知识图谱是实现大规模智能系统的关键。人们使用搜索功能是为了方便快捷地发现知识,从而开阔眼界。然而目前的搜索系统远不够智能,仍然需要用户的大量交互才能获得期望的搜索结果。知识图谱可以帮助提供更加智能化的搜索功能,其基本想法就是要对搜索结果进行系统的知识整理,使每个用户查询的关键词都能映射到知识库中的知识节点。
“我们构建了超过800万知识概念,上亿关系连边的知识图谱,有效的提升了我们对科技情报分析挖掘的准确性及全面性,提升了用户对搜索结果的满意度。”唐杰说。
同时项目相关技术应用于阿里巴巴的数据平台上,项目团队建立的融合语义特征和隐含特征模型的语义知识图谱(Hybrid-KG),将知识图谱构建的准确率由55%提升至88%。
打破垄断 为中国科研“提速”
据悉,自AMiner研发以来,便一直强调免费为公众提供服务,推动科技创新发展,帮助企业产品升级,产生了良好的科学效益和社会效益。
如今AMiner服务全球科研人员。覆盖了全球220个国家和地区832万独立IP用户,服务21万余家企事业单位及各类机构,提供科研数据下载230万次,近3年年均数据访问量在1100万次以上。
平台为中国工程院、国家自然基金委、科技部等科研管理部门提供专家智库、科技发展战略规划等科技情报挖掘服务。与中国工程院共建“知识智能”联合研究中心,建设中国工程科技知识中心的学术分中心,在其当前24个上线分中心中访问量排名第一。
平台为北京搜狗公司构建搜索同义词库及上万节点的知识图谱,并直接在搜狗学术搜索上线,为搜狗用户提供科技情报挖掘服务。平台还服务于腾讯、阿里等20余家重大科技企业,助力企业产品升级,加速企业科技创新。