王恩东 高端容错计算机项目总设计师、浪潮集团首席科学家 |
在国外技术严密封锁、产业链高度垄断的情况下,浪潮依靠自主创新在高端容错计算机体系结构、操作系统、处理器协同芯片和硬件系统方面实现重大技术创新与突破,从无到有建立高端计算机技术体系并开创高端容错计算机产业体系。
跨过“8”这个门槛
破解核心技术是浪潮遇到的第一个难题,也是一个表面看来很简单的问题,那就是如何让天梭K1系统处理器数量超过8颗。
高端容错计算机不仅可以通过处理器升级来获得性能提升,还可以通过增加处理器数量来提高性能,但是当处理器数量超过8颗,就会碰到“内存墙”的问题。
据浪潮集团首席科学家王恩东介绍,处理器要协同工作,相互之间必然要通讯,而且处理器之间不仅要进行数据传递,更要保持数据一致,任何数据异步都可能会造成系统停机,这使得处理器通讯远比一般性的通讯技术更为复杂。随着处理器数量的增加,处理器间的通讯强度会呈指数形式增加,甚至是失控。另一方面,通讯对处理器的消耗十分惊人,处理器完成一次本地通讯需要的时间是完成一次计算任务的200—300倍,如果是相邻节点的通讯则需要400—600倍的时间,如果采用一般的处理器协同技术,当处理器数量超过8颗以后,大量的处理器资源都被通讯占用,继续增加处理器数量时,性能提高就会十分有限,其直接的技术表现就是处理器读取内存数据延时过长,这个现象在专业领域被称为“内存墙”。
天梭K1有32颗处理器,256个内存插槽,已经远远超过了初始的技术瓶颈,破解天梭K1 面临的“内存墙”问题,只能创建一个全新的处理器互联结构和通讯机制,这是业界几十年来一直难以破解的难题,全球具有该项技术开发能力的公司不到5家。
提供99.999%的高可用性
高端容错计算机是专门承担关键应用系统的系统平台,一旦出现停机事故,将会严重伤害客户业务,甚至在社会经济层面造成影响,所以,能够提供99.999%的高可用性,可以7×24小时不间断运行是高端容错计算机最基本的应用需求。
王恩东说:“从可用性的角度看,研制高端容错计算机就像用积木来搭一个摩天大厦,必须开发一套完整的容错技术来消除每个可能出现的问题,保证系统运行的连续性。”
高端容错计算机大约有几十万个电子器件,目前品质最高的工业级电子器件平均无故障时间在10000小时左右。另外,高端容错计算机的BIOS等底层代码有几千万行,最权威的Coverity Analysis集团数据,目前企业软件的缺陷密度为 0.72,也就是平均每1000行代码中会有0.72个缺陷,而任何一处不良代码都是潜在的隐患。因此浪潮需要开发复杂系统内核容错技术,快速准确地发现、隔离和恢复数百种软硬件故障,保障系统承载的关键应用稳定可靠运行。
操作系统10倍的复杂性
操作系统是硬件资源的管理者,是实现高端容错计算机系统功能、保证系统性能和可用性的关键子系统。高端容错计算机需要专配的操作系统,无论是性能、可靠性还是安全性,普通操作系统不能满足高端容错计算机的技术需求。
复杂度是高端容错计算机操作系统面临的第一个技术挑战。高端容错计算机处理器核、内存容量、I/O设备等资源的规模是通用服务器的十倍以上,由此使得操作系统资源管理复杂性极大提升。例如,100颗核心的平均冲突开销约为10颗核心的近千倍,100颗核心时的通讯复杂性约为10颗核心的100多倍。在这样复杂的硬件条件下,操作系统需要具有精准、高效的线程调度、内存分配回收以及中断处理机制,避免或减少跨节点数据通讯,避免或降低多处理器对同资源请求的冲突情况,因为这些情况一旦发生,一次操作会占有几百次,甚至是上千次的处理器计算周期,大幅拉低系统性能。
王恩东表示,中国已经掌握了国际领先的32路高端容错计算机核心技术,我们正在开发性能更高、可靠性更强的64路系统高端容错计算机系统,同时也将进一步拓展应用规模,天梭K1的目标市场份额是30%以上,把自主化进程向更深层次推进。