■科技资源 开放共享
本报记者 张 强 特约记者 王握文 通讯员 李 璇
“天河二号”究竟有多快?其峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次双精度浮点运算。假设每人每秒钟进行一次运算,它运算1小时,相当于13亿人同时用计算器计算一千年!
“天河二号”存储容量又有多大?其内存总容量1400万亿字节,存储总容量12400万亿字节,相当于可存储600亿册每册10万字的图书,如果以国家图书馆2500余万册的藏书量为例,其存储量相当于2400个国图!
这样惊人的速度和存储容量让来自中国的“天河二号”两年之内,连续四度问鼎世界速度之巅。从被认为国际超算领域杀出的“一匹黑马”,到如今“蝉联荣耀”,每一项可喜成绩的背后,都凝聚了“天河人”的超常勇气与辛勤付出。
披荆斩棘,紧盯第一再超越
这是一场只有起点没有终点的冲刺,要想在国际超算领域的“群雄逐鹿”中突出重围,面对的不仅仅是近乎残酷的激烈比拼,更有接连不断的超越与被超越。
2010年11月17日,中国“天河一号”超级计算机首次摘得国际超级计算机500强排行榜桂冠的喜悦。时隔仅仅8个月,日本一台名为“京”的超级计算机就将“天河一号”挤下冠军台。之后,美国研制的“红杉”“泰坦”先后坐上世界第一的交椅,“天河一号”排名滑落至第8名。
中国超算难道仅仅就是昙花一现?失去冠军的“天河”又该何去何从?面对各行各界的纷纷质疑,“天河人”认真总结成功经验,深入分析既有优势和存在不足,对国际超算发展做出了“三个没有改变”的判断,即:西方在信息技术领域的优势地位没有改变,美国在超级计算领域的主导地位没有改变,世界强国争夺超级计算机领先地位的态势没有改变。
事实上,从“天河一号”问世那天起,“天河二号”的攻关就打响了。
不断探索、不断研制,不断发展、不断超越,为了缔造“中国速度”的再度辉煌,“天河”创新团队着眼国际高性能计算发展趋势,成立多个课题小组,组织精干的技术力量,瞄准亿亿次级超级计算机展开新的攻关。
在先期技术攻关基础上,2011年12月,他们申报的国家科技部“十二五”863计划“高效能计算机研制”重大项目,顺利通过立项评审。
与此同时,国防科技大学积极与广东省、广州市、中山大学签署合作协议,通过军民融合式发展,共建广州超级计算中心,并于2012年5月,实现了广州超级计算中心在中山大学的正式揭牌,由国防科技大学提供的一套340万亿次的天河先导系统随即开通,投入应用。
狭路相逢勇者胜。在“天河人”废寝忘食的努力下,“天河二号”超级计算机相继突破了一系列核心关键技术,并在2013—2014两年间,在连续四届的世界超级计算机500强排行榜的评选中,以其大幅领先的运算速度、品质优越的综合性能,成功击败国际超级计算机研发领域的“各路诸侯”,创造了世界超算之巅的“四连冠”!
自主创新,瞄准前沿求突破
“天河二号”工程副总指挥李楠研究员告诉记者,“天河二号”具有五大特点:一是高性能,峰值速度和持续速度都创造了新的世界纪录。二是低能耗,能效比为每瓦特19亿次,达到了世界先进水平。三是应用广,主打科学工程计算,兼顾了云计算。四是易使用,创新发展了异构融合体系结构,提高了软件兼容性和易编程性。五是性价比高。
与此同时,“天河二号”的多项自主关键技术令世界瞩目:高速互连系统性能是当前国际商用互连系统的两倍,综合化能耗控制机制实现了国际先进的能效比,“飞腾-1500”CPU构建出高安全高吞吐率的服务阵列,高密度高精度组装结构使得这台系统的占地面积与“天河一号”相当,性能却提升了11.6倍……
高性能、高能效从何而来?“天河二号”工程总指挥、总设计师廖湘科研究员说:“这一切都源于瞄准国际前沿的自主创新,是自主创新推动了中国超算的跨越式发展。”
“天河一号”采用的“CPU+GPU异构融合体系”,就是一条不同于此前任何系统的技术路线。几年来,因其低能耗、低成本、高集成度等优点,这种结构成为国际主流。在此基础上,科研人员迈出大胆创新的又一步,为“天河二号”设计出“新型异构多态体系结构”,实现了微异构计算阵列和新型并行编程模型和框架,提升了应用软件的兼容性、适用性和易用性,不仅大幅提高了系统计算速度,还将其应用从科学计算拓展至大数据处理、大规模信息服务等多个领域。美国、德国、日本等国科学家甚至预言,“天河”必将再次引领世界超算结构的发展潮流。
研制过程中,科研人员还在国家重大专项支持下,自主研制出当前国内主频最高的新一代高性能通用“飞腾-1500”CPU。“天河二号”的服务阵列就是基于“飞腾-1500”CPU构建的,用于支撑高吞吐率和高安全的信息服务类应用。
此外,“天河二号”通过采用综合化的能耗控制,设计实现了面向高效能计算的层次式优化框架、自适应能耗控制算法及低损耗、高效率的电源设计,有效提高了系统的能效比,达到了世界先进水平。“天河二号”还在高速互连、新型层次式加速存储架构、容错设计与故障管理、综合化能效控制、高密度高精度结构工艺等方面也取得了一系列创新和突破。
整合资源,群策群力齐攻关
面向大科学、大工程应用的超级计算机系统,研制过程本身也是一个大工程。国防科技大学整合优势科研资源,高性能计算、高性能微处理器技术、基础软件技术、网络技术4个团队强强联合,合力打造了“天河二号”的软硬件系统。
2013年6月,“天河二号”以其峰值计算速度每秒5.49亿亿次、持续计算速度每秒3.39亿亿次的优越性能,继2010年“天河一号”首度夺冠后再次问鼎。然而,“天河”团队并没有因此停下脚步,随即又马不停蹄地投入到更深层次的科研攻关中。
据“天河二号”主任设计师卢宇彤介绍,仅仅是为了将网络互连软件性能参数调整到适应硬件的最佳状态,科研人员们就在3个月的时间里进行了上亿次测试实验。
“周周5加2,天天白加黑”,成为“天河人”的工作常态。为了不断提高GPU的计算效率,“天河二号”主任设计师杨灿群研究员和课题组成员把自己封闭起来,开始长达4个月的攻关,平均每天要进行上百次的实验,“早上一起床就开始干,一干就是一整天,晚上睡觉一闭上眼睛,屏幕上的数据还在脑海里滚动。”在经过了8万多次实验与性能优化后,他们终于发现了GPU的内在规律,找到了提高计算效率的突破口,使GPU的计算效率达到了70%,创造了又一个世界的奇迹。
那些日子里,一名主任设计师的女儿6月份参加高考,可她却为了“天河二号”,没有更多时间来照顾女儿。她给女儿发的一条短信写道:孩子,妈妈干的是国家的大工程,也像你准备高考一样到了冲刺的阶段,让我们一起完美冲过终点线吧。
“我们团队的每个人都有强烈的协作意识,都是系统中不可或缺的‘元器件’。”“天河二号”副总质量师胡庆丰说,每当遇到技术瓶颈时,“天河”团队总是群策群力,集智攻关,以致于很多设计思想、创新点子说不清到底该属于谁。成果即便获奖,也只能署少数人的名字,但大家面对荣誉得失,总是胸怀坦荡:“能参与这样大的国家工程,我们感到无比自豪。”
不知从什么时候开始,“银河”系列巨型机研制过程中形成的“胸怀祖国、团结协作、志在高峰、奋勇拼搏”的“银河精神”就成为“天河人”永远坚守的精神高地。把五星红旗插上世界超算之巅,这就是“天河人”始终追逐的中国超算梦!