2023年09月04日 星期一
超算互联网:让算力走进千行百业
由国家超级计算济南中心打造的“山河”超级计算平台。国家超级计算济南中心供图

    ◎本报记者 都 芃  通讯员 申 畅  王 聪

    深入推进建设以国家超算互联网为代表的新一代算力网络基础设施,并不能靠简单的算力堆砌,而是要实现网络、算力调度、产业链、数据要素治理等多方面的资源协同,强化东西部跨域统筹发展。

    吴晓明 国家超级计算济南中心主任

    让算力像电力一样走进千家万户、赋能千行百业,这一20年前提出的设想如今正成为现实。8月26日,2023年CCF全国高性能计算学术年会在山东省青岛市落下帷幕,超算互联网成为与会专家学者热议的话题。

    目前,我国算力网络基础设施不断完善,各行各业数字化进程持续加速,人工智能、数字孪生等技术迅速发展,对算力,尤其是高性能算力的需求呈爆发式增长。与此同时,高性能算力地区供需分布不均、应用生态不完善、持续运营困难等问题制约着我国数字经济高质量发展。在这一背景下,超算互联网应运而生,成为破解我国超算发展难题的一把关键“钥匙”。

    用互联网思维发展超算服务

    作为当之无愧的“国之重器”,超级计算机距离我们的日常生活并不遥远。小到每天看到的天气预报,大到国产大飞机C919,背后都有超算的身影。中国工程院院士、清华大学计算机系教授郑纬民表示,超算如今已广泛应用于气象预测、生物制药、航空工业等领域,并在产业数字化过程中发挥着重要作用。

    郑纬民指出,我国超算的实力毫无疑问处于国际第一梯队。在6月份发布的最新一期全球超算500强榜单中,我国有两台超级计算机位列前十,超级计算机总数更是达到了134台,位列全球第二。

    但也应该看到,我国超算面临着算力设施分布不均衡、水平参差不齐、应用软件自主研发和推广应用不足等问题。国家超级计算济南中心主任吴晓明表示,由于超算的技术门槛比较高,且尚未形成丰富的应用软件生态,目前超算的应用仍局限于比较传统的高性能计算领域,如天气预报、大型工程设计、基础科学研究等。

    超算互联网的核心目标是让超级计算机实现从传统的提供算力到提供服务的革命性转变。“我们希望通过打造超算互联网,把各个超算中心连在一起,形成更大的算力平台,并且利用互联网思维,打造更为丰富的超算应用生态,从而能够直接通过平台对外提供超算服务。”吴晓明表示,超算互联网及其应用生态的打造,将有利于降低超算应用的门槛,让超算从“阳春白雪”走向普及普惠,加快渗透千行百业、走进千家万户。

    未来,有超算需求的用户可以直接打开超算互联网,实现一站式的超算产品浏览、下单、支付、应用等。用户看到的将不再是某个超算中心、某台计算机,而是一个能够直接解决问题的完整应用软件或解决方案。“我们希望超算互联网未来能像淘宝、京东一样,直接向用户提供可应用的超算产品,降低超算的应用门槛,更好地赋能数字经济发展。”吴晓明说。

    研发新技术破解互联难题

    超算互联网的关键在于互联。只有实现高速互联,分布在各地的超算资源才有可能整合为一个有机整体,面向各行各业提供高性能的计算服务。“虽然叫作超算互联网,但在网络中流动的并不是算力,而是数据。”国家超级计算济南中心副主任潘景山表示,在超算互联网中,数据的传输速度直接影响到计算效率。

    影响数据传输速度的两大因素是带宽和延迟。带宽即单位时间内能够通过的最大数据量,延迟则是信息在传输介质中传输所用的时间。

    “比如,在网络正常的情况下,从北京的清华大学传输4T大小的数据到江苏的国家超级计算无锡中心太湖之光超级计算机需要5天。但若我们把数据都刻成盘,然后用快递寄过去,第二天下午就到无锡了。”谈及目前带宽较低、延迟较高带来的影响,郑纬民形象地解释道。

    目前我国正式挂牌的超算中心有十余家。让这十余家超算中心连在一起成为一台“大机器”,需要网络具有极高的带宽和极低的延迟。高带宽、低延迟实现起来并不容易。

    “以往我们用的光纤链路最大的带宽约为100G或200G,每百公里延迟约为1.5毫秒,但这并不能满足超算互联网建设的需求。”潘景山介绍,通过持续攻关,国家超级计算济南中心已在高速网络通信、网络资源感知调度、算力网络融合和安全方面突破了一批关键技术,并首次建立起了基于长距IB通信技术的济南—青岛超算互联网试验网,它的带宽达400G,500公里通信距离的网络延迟由原先的双向10毫秒以上降低至5毫秒左右。“通过这一网络,济南、青岛两地的超级计算机可以连接成一个整体,发挥更大的作用。”潘景山举例道,当借助济南—青岛超算互联网试验网进行地球系统模拟计算时,可以将其拆分为大气和海洋两个模式,在两地分别进行协同计算,大大提升计算效率。

    高带宽、低延迟给超算互联网带来的极致性能,也将显著扩大其在产业中的应用规模。例如国家超级计算济南中心与潍柴集团合作开展的发动机仿真模拟计算项目,产生的数据量达到TB级。“如果我们用传统互联网传输这些数据,可能需要传2—3天,对设计人员来说,这严重影响工作效率。”潘景山表示,借助高带宽、低延迟的超算互联网,TB级的数据量只需极短时间便可完成传输。“如果说传统互联网是数据传输的‘高速公路网’,那么高带宽、低延迟的超算互联网则是运行能力成倍提升的‘高铁网’。”潘景山如是说。

    壮大平台生态赋能产业发展

    相比传统的超算应用模式,超算互联网可提供统一、完整的超算服务。实现这个目标,需要在运营模式、平台生态、产业培育等方面同步发力。

    “我们深知,深入推进建设以国家超算互联网为代表的新一代算力网络基础设施,并不能靠简单的算力堆砌,而是要实现网络、算力调度、产业链、数据要素治理等多方面的资源协同,强化东西部跨域统筹发展。”吴晓明建议,超算互联网未来发展需要连接产业生态中的算力供给、应用开发、运营服务、用户等各方能力和资源,构建一体化超算算力网络和服务平台。同时,还需要紧密连接供需双方,通过市场化的运营和服务体系,实现算力资源统筹调度,降低超算应用门槛,并推动计算技术向更高水平发展,促进核心软硬件技术深度应用,辐射带动产业生态的发展与成熟。潘景山也指出,应联合超算中心、运营商、软件供应商和用户合作建设超算互联网,打造超算共同体,这样才能让我国数字经济真正实现以“高铁速度”发展。

    高性能算力能够驱动产业的发展,大范围、大规模的产业应用也能为算力升级提供动力。目前,国家超算互联网平台已开放第三方企业入驻,并明确了入驻企业条件:可提供基础超算IAAS服务等基础资源;提供行业应用软件资源;提供多学科行业应用服务等平台资源;提供多样数据模型、源码等资产资源,以及提供各种类型的算力服务。截至8月,已有35家超算上下游单位成功入驻国家超算互联网平台,另外有近百家单位递交了联合体入会申请,这将为超算互联网平台持续注入活力。

京ICP备06005116