◎本报记者 张盖伦
2024年以来,中国电科旗下大数据产业企业易华录有了一系列动作。其大力推进数据资产入表应用转化工作,完成了政务数据、交通数据、医疗数据等一大批政府部门和公益部门的数据资产入表,引领和推动了数据要素化战略向纵深发展。
这些进展的背后,发挥支撑作用的正是于今年获得国家科学技术进步奖二等奖的一项成果——“多源异构数据湖的聚存算关键技术及应用”。
北京理工大学计算机学院院长王国仁为该成果第一完成人。近日,他在接受科技日报记者专访时表示,这项已经落地实践的科研成果,解决了多源异构大数据面临的无法兼顾全模态与高质效,以及难以突破全周期存储效能的极大化和全任务协同计算瓶颈等难题。
曾有专家预测,到2025年,我国将成为全球第一数据大国。但简单的数据累加并不能产生效益,还需进行存储、交易和治理,才能发挥数据的真正效用。王国仁表示,他们的研究,正是要让数据聚得好、存得起、用得活。
在采访过程中,王国仁最常说的话,就是“思路很简单,我一说你就懂了”。仿佛武林高手,一招一式看似平实,又大有乾坤。
用人工智能“预判”
数据湖的概念于2010年左右被提出。它是一个集中式存储库,能以任意规模存储所有结构化和非结构化数据;还可以按原样存储数据,并运行不同类型的分析。“数据湖其实就是一个大数据场景下的数据管理平台,可以支撑数据价值化、计算高效化和运行绿色化。我们的成果在这三方面都能发挥作用。”王国仁说。
光存储的最显著特性就是绿色节能,但要真正实现绿色,还需解决一个问题——数据抖动。
一般来说,经常被访问的数据被称为热数据,而较少被访问的数据被称为冷数据。热数据适合磁、电介质进行存储,实现高性能访问;而冷数据,则适合使用绿色节能、单位存储成本低的光存储介质。
访问数据,其实就是把它从光介质中拿出,暂存到电磁介质之中;当数据完成了使命,再把它放回光介质。一来一回,就会出现数据的冷热切换,也就是“抖动”。数据总在不同介质之间来回“折腾”,能耗就会增加,使得光存储的节能效果打了折扣。
对此,王国仁想到了一个“思路很简单的方法”,使光存储的节能效果相较于磁盘存储提高了90%以上。
王国仁说,这个方法就是在移动数据前,用人工智能进行“预判”,预测整个数据场将来的行为。“比如,我知道这把椅子从仓库拿出来后,还有很多场合需要它,就先把它放在办公室,随时能用。”王国仁指了指自己身旁的椅子,“如果我知道,这把椅子以后很长时间都用不到了,那就把它放回仓库,免得占地方。”
光电分级存储,实现了真正的节能,也为高密度光数据存储的产业化扫除了重大障碍。
应对所有数据类型
还要解决的问题是“算”。
数据湖中的数据来源多样,形态多样,可谓五花八门。不同的数据,不同的任务,需要不同的处理方式。能不能找到一种方法“一统天下”,高效应对所有数据类型?
王国仁说,这个方法就是“抽象”。
王国仁解释,不管是执行什么任务,归根结底,就是计算。大道至简,核心无非加减乘除,所以,要找到底层逻辑,让所有任务在算术上都变成同质的。这样一来,处理不同任务,就变成了一个优化计算顺序的问题。“利用这种思路,结构化、半结构化的数据都能应对,图像,视频,文字都可以处理。这也就是全任务协同优化计算新系统。”王国仁说。
要高效处理数据,还得保障数据的质量。“其实思路也很简单。”王国仁说。
传统保障数据质量的方法是“基于规则”的。比如,看到一头三条腿的大象,在具备“大象应该有四条腿”的领域知识下,数据湖能将这一有缺陷的大象相关数据进行修复。但是,我们很难对所有类型的数据都事先定义规则。那么,能不能在没有相关领域知识的情况下修复数据?王国仁介绍,可以通过语义驱动来补足规则定义的不足:先通过模型学习何为常识,再在大语言模型的帮助下判断数据的准确性,然后进行修复。
王国仁团队从2008年起就开始研究数据的聚合、存储和计算,已经有了长时间的积累。如今,围绕多源异构数据湖的聚合—存储—计算,其团队取得了跨模修复与多模融合、蓝光存储与智能调度、批流融合计算与混合查询优化等技术创新。
近年来,王国仁主动找到数据库龙头企业建立合作。团队和企业合作研制出的数据湖系统,推动了我国大数据管理领域的发展。成果已经服务于智慧城市、智能公安、智慧医疗等领域,并支撑全国首个数据银行建设。