6月25日,在德国法兰克福举行的2018国际超算大会上,最新一期Top500全球超算排行榜正式发布,美国橡树岭国家实验室的超级计算机Summit,以峰值计算性能每秒20亿亿次(200 PFlops)的速度登顶全球最快超级计算机。
中国的天河二号和神威·太湖之光让出了已经占据5年的第一。不过,在业内人士看来,Summit已经比预计的日期延后了一年,而中国并非不能造出200 PFlops的机器,只不过各自有既定发展节奏。争夺世界最强计算机固然重要,但超算的真正较量,绝不是看谁是第一那么简单。
中看更中用
付昊桓记得这么一个故事。2010年的11月,天河1A首次成为世界最快。中国超算界专家都很高兴,毕竟“最快”这个荣誉,几十年来由美日垄断。
不过,大会现场有美国专家发问,中国现在有实力构建全球最快的超级计算机,但是否能用最快的机器来解决最顶尖的科学或者工程问题?在这位专家的眼中,这台庞然大物也许是“中看不中用”。
虽然尖锐刺耳,但的确反映了一个事实:造出最快的计算机固然不错,能否真正发挥作用才是根本。
也差不多那个时候,付昊桓从斯坦福回到了清华地球系统科学系,听说了这段故事。当时,天河1A采用的是英特尔的处理器和英伟达的GPU加速器,在上面跑大型的应用程序也才刚刚起步。
“我回到清华后的第二年,也就是2011年的时候,我们几个人慢慢结识,先是认识了薛巍老师,然后是杨超老师。”付昊桓说。
清华大学计算机系的薛巍教授此前从事电力电网研究,之后又扩展到气候模拟等其他应用领域。中国科学院软件研究所杨超研究员则从事计算数学的研究。付昊桓那时正对新的计算架构着迷。“因为天河1A是CPU加GPU,主要的计算力由GPU加速器来提供。所以要把它高效用起来,就得把GPU用好了。我们当时就组了一个团队,想把这个机器用起来,解决大气模拟的问题。”付昊桓说。
从天河1A开始,短短几年内,中国先后推出一系列超级计算机,不断刷新“最快”纪录:“神威蓝光”“天河二号”“神威·太湖之光”,从2013年6月算起,中国的超算已占据TOP500榜单第一位置5年之久,并于2016年和2017年,两获“戈登·贝尔”奖。付昊桓现为清华大学地球系统科学系副教授、国家超级计算无锡中心副主任。
2016年,在一份报告中,美国国家安全局和能源部认为,中国超算已经和美国接近并跑,对其国家安全、经济社会、超算行业等造成威胁,若再不加大投资,寻求改变,美国将失去其领导地位。
而今,再不会有人认为中国的超级计算机只是个庞然大物。最强超算的争夺,已经成了中美日等少数国家之间的竞争。6月25日,美国Summit正式重回第一。不过业内清楚,拥有第一强的机器仅仅只是超算较量的一步。
打造完善的生态系统
利用太湖之光,付昊桓希望为研究地震发生机制提供更为准确的模拟平台,同时为抗震防震提供量化评估工具。模拟唐山大地震之后,下一个更艰巨的目标是汶川地震。
付昊桓的团队打算运用超算模拟汶川地震的震源产生、地震波传播过程,针对特定区域完成基于地震过程情景模拟的震害预测,量化评估地震强度及震害分布。精确的模拟,对于降低与预防地震灾害所带来的巨大损失,以及开展地震高发区的合理规划与设计,均可发挥重大作用。
付昊桓的团队打算与成都理工大学研究山体滑坡的团队合作,研究地震会不会触发山体滑坡,会触发什么样的山体滑坡。此外也与建筑防震专家合作,将地震的模型与建筑的模型连接起来,研究发生地震后会对建筑造成怎样的损害。“像美国加州地区也是地震频发,那里人们买房子都要购买地震保险。而每栋房子保险的定价,背后依靠的就是基于地震模拟的量化风险评估。”付昊桓介绍说,地震相关产业服务离不开精确的模拟。
除了科学方面的用户,各个超算平台也接纳了不少企业用户——他们想设计新型的飞机发动机、船舶,还有风力发电的涡轮机叶片。超算已成为支撑智能制造,提升经济质量的重要一环。
超算平台大量的投资希望换回更大的社会经济效益。无锡市希望通过超算平台吸引从事人工智能、智能制造、工业大数据的企业和研究人员,其建立的超算产业园,也希望能惠及当地经济发展。
国家超级计算无锡中心主任杨广文利用一切机会推介神威·太湖之光。在去年的一个论坛上,他恳切地说:“超算大家听上去是高大上的,也是国家战略,但是否会把它做成一个可持续发展的(产业)?超算人也想成功。”
在前述的美国国家安全局和能源部的报告中,也认为中国超算将威胁美国经济:“高性能计算领导地位的损失潜在地威胁到已经重度使用高性能计算的行业内的美国公司。这些行业包括汽车、航空航天、先进制造、石油勘探、制药研究、金融等。这些行业在全球范围内已经具有强的竞争性,因此美国竞争力的些许损伤(例如,如果中国用其高性能计算领导地位为其国内产业提供廉价甚至免费的计算能力)就会转化成更大的经济效应。同样也会带来重大的知识产权风险:如果一家制药公司的药品开发在海外进行,那么IP泄露在多大程度上会阻碍美国的竞争力?”
而对于中国,有些行业也发展到了一定程度,必须自行开发软件。“飞机、高铁还主要是依赖国外的商用软件在进行设计和仿真,下一步我们希望基于‘神威’的平台,特别是和这些应用单位深入合作去做我们自主工业仿真和设计的软件平台。”付昊桓说。
从采用国产的处理器,到编译器、操作系统、各种计算库、开发框架,中国的超级计算机试图构建一套自己的生态系统,而要真正进入良性的发展还依赖于用户的使用和反馈,他们是超算社群至关重要的一环。
期待整个青藏高原
2015年4月9日,美国商务部发布公告,禁止向中国的4家国家超算中心出售英特尔“至强”芯片。有外界评论认为,禁运可能和天河二号多次占据超级计算机高性能榜首有关。紧接着2015年年底,中国推出神威·太湖之光,且使用的是全国产芯片。
不过,这两件事情之间仅仅是一种“巧合”。此前的“神威蓝光”就已经采用了全国产芯片,神威·太湖之光从开始设计之初就是全国产,不过是按照预期的进度推出而已。
这恰如此次美国Summit的推出,都是意料中事。“200P、300P我们其实是可以造出来的,只是规划节奏不一样。”付昊桓解释。
目前,世界各国正准备建造下一代E级计算机(100亿亿次)。为何建造E级计算机,TOP500发起人、橡树岭国家实验室及田纳西大学Jack Dongarra教授在上个月南昌举办的ASC会议期间说:“不是我们要造下一代计算机,而是科学家提出了更困难的挑战,更难的问题(需要这样的计算机),E级的计算机只是我们发展中间跨越的一个障碍物,以后还会有更高量级的计算机出现。”
中国目前有三家机构正在独立研发E级计算机,预计于2020年推出。而中国超算更为重要长远的任务,也许是整个生态系统的建设。
“单纯从超算而言,无论是硬件系统,还是部分领域的软件应用,中国都已经有和美日比肩的突破性成果。但要能够对超算背后的诸多产业都能形成一个正面的反馈,还需要较长时间。比如基于超算的天气及气候预测、工业设计和仿真、新材料的制备、新药研发等等,任何一个行业与超算硬件及软件的融合,都能产生巨大的产业提升。我们现在有了超算技术的突破,下一步应该期待如何实现对产业的辐射和支撑。”付昊桓说。
对于中国的超算来说,现在有了一个珠穆朗玛峰,下一步或许应该期待整个青藏高原。(作者系“知识分子”公号主笔)