◎本报记者 操秀英
在近日举办的2023世界人工智能大会上,AI芯片企业亮点颇多,积极参与这波大模型淘金热。他们纷纷展示出大模型实力,以及在具体行业和场景落地的示范案例。其中,上海燧原科技有限公司(以下简称燧原科技)打造的燧原曜图文生图MaaS平台服务产品让人眼前一亮。其底层算力由“邃思”系列芯片提供,还涵盖软硬件一体的全栈解决方案。
这家成立仅5年的公司,已成为AI芯片赛道的“黑马”。其背后,离不开腾讯的战略支持。
“业内没有,就自己搞一个”
2018年,燧原科技成立不久,腾讯就开始与其开展深度合作,加强人工智能领域云端算力平台产品和服务等核心业务发展。
复盘来看,腾讯对燧原科技最大的助力是助其商业化落地及让其芯片项目上云。近年来,腾讯与燧原科技在国内首次采用“存算分离”架构的芯片仿真混合云平台项目突围成功,成为燧原科技第一个上云的芯片项目。
燧原科技芯片上云的这一步并不容易。
腾讯云计算相关专家表示,芯片是一个相对传统的行业,很多企业部署了较重的线下IDC(互联网数据中心)资产,遵循着一套标准化的使用流程。但其实,芯片设计在不同阶段对算力的需求不同,波动明显且难以预测。为了突发的需求部署大量的冗余资源,很不划算。而且,芯片研发需要的是高性能先进计算资源,如果要一直更新机型,负担很重。
显然,云计算的弹性特点能很好满足芯片设计快速、灵活地获取海量高性能计算资源的需求。然而,核心知识代码和流程工艺等数据的安全是重中之重,是芯片企业的命门,上云是否安全?于是,燧原科技试探性地问:能否把所有的存储放在本地,在需要弹性算力的环节使用云?
通常来讲,数据中心会将存储和计算资源部署到一起,但燧原科技需要的是更加彻底的“存算分离”,云上仅包含计算,所有数据存储在本地,通过专线远程访问。相比起云上的存算分离,这种架构对网络时延、带宽吞吐率和效率的要求都更加严苛。
这也是国内芯片企业从未实践过的构想。
“但这个顾虑是燧原科技上云前最大的障碍,那就必须搞定。业内没有,就自己搞一个。”腾讯云有关负责人说,随后的几个月,腾讯云、上海速石信息科技有限公司(以下简称速石)与燧原科技一起,大胆假设、小心求证,搭建了“存算分离”芯片仿真混合云平台。
为此,腾讯云提供足够多的算力机型,在需要弹性算力时,根据业务作业的不同类型,配置相应的算力资源。速石平台的云原生调度器,则能不改变用户的使用习惯,让使用者无感地调用云资源,减少上云的学习成本。为了进一步提高安全性,在传输层面,一条连接腾讯云和燧原科技的超大带宽专线拉起,保证传输通道安全可信。同时,腾讯云的iOA(智能办公自动化系统)方案,可确保终端的安全。
芯片仿真混合云平台于2022年6月正式上线,当年10月,算力达到初始规划的数倍。
仿真周期缩短30%—50%
算力“爆炸”背后,是一个关键的环节——芯片各项功能的一致性验证。在这一阶段,云平台始终处于高压状态,有时候,算力会突然冲到几万核——相当于在一瞬间同时拉起数百台大规格的机器,整个系统必须保持高稳定性和实时响应能力。在最激烈的时刻,三方人员进行了长达14天×24小时的轮班值守。
腾讯云具备丰富多元的裸金属实例、GPU(图形处理器)实例,在芯片的仿真验证和性能对比测试环节,可一站式完成多代次、多卡型的验证工作,极大提升部署效率和测试效率。
在远端,腾讯云越来越多的专家加入,工作群随时都有总监级研发人员被拉进去提供支持。速石也投入了包括首席架构师在内的大量精锐力量。经过不断的改进调优,平台最终做到充分的并行作业,在两分钟时间里即能快速完成服务器交付,小时级别完成研发环境交付。
最终,经过16天×24小时值守,他们成功了。
长达8个月的实战后,燧原科技看到了一张成绩单:总体任务并发量通过云端弹性同步提高,缩短仿真周期30%—50%。未来,燧原科技打算逐步扩大用云规模,尽量让使用弹性算力的环节都上云。