平台企业助力AI芯片项目上云 --科技日报数字报

◎本报记者操秀英

　　在近日举办的2023世界人工智能大会上，AI芯片企业亮点颇多，积极参与这波大模型淘金热。他们纷纷展示出大模型实力，以及在具体行业和场景落地的示范案例。其中，上海燧原科技有限公司（以下简称燧原科技）打造的燧原曜图文生图MaaS平台服务产品让人眼前一亮。其底层算力由“邃思”系列芯片提供，还涵盖软硬件一体的全栈解决方案。

　　这家成立仅5年的公司，已成为AI芯片赛道的“黑马”。其背后，离不开腾讯的战略支持。

　　“业内没有，就自己搞一个”

　　2018年，燧原科技成立不久，腾讯就开始与其开展深度合作，加强人工智能领域云端算力平台产品和服务等核心业务发展。

　　复盘来看，腾讯对燧原科技最大的助力是助其商业化落地及让其芯片项目上云。近年来，腾讯与燧原科技在国内首次采用“存算分离”架构的芯片仿真混合云平台项目突围成功，成为燧原科技第一个上云的芯片项目。

　　燧原科技芯片上云的这一步并不容易。

　　腾讯云计算相关专家表示，芯片是一个相对传统的行业，很多企业部署了较重的线下IDC（互联网数据中心）资产，遵循着一套标准化的使用流程。但其实，芯片设计在不同阶段对算力的需求不同，波动明显且难以预测。为了突发的需求部署大量的冗余资源，很不划算。而且，芯片研发需要的是高性能先进计算资源，如果要一直更新机型，负担很重。

　　显然，云计算的弹性特点能很好满足芯片设计快速、灵活地获取海量高性能计算资源的需求。然而，核心知识代码和流程工艺等数据的安全是重中之重，是芯片企业的命门，上云是否安全？于是，燧原科技试探性地问：能否把所有的存储放在本地，在需要弹性算力的环节使用云？

　　通常来讲，数据中心会将存储和计算资源部署到一起，但燧原科技需要的是更加彻底的“存算分离”，云上仅包含计算，所有数据存储在本地，通过专线远程访问。相比起云上的存算分离，这种架构对网络时延、带宽吞吐率和效率的要求都更加严苛。

　　这也是国内芯片企业从未实践过的构想。

　　“但这个顾虑是燧原科技上云前最大的障碍，那就必须搞定。业内没有，就自己搞一个。”腾讯云有关负责人说，随后的几个月，腾讯云、上海速石信息科技有限公司（以下简称速石）与燧原科技一起，大胆假设、小心求证，搭建了“存算分离”芯片仿真混合云平台。

　　为此，腾讯云提供足够多的算力机型，在需要弹性算力时，根据业务作业的不同类型，配置相应的算力资源。速石平台的云原生调度器，则能不改变用户的使用习惯，让使用者无感地调用云资源，减少上云的学习成本。为了进一步提高安全性，在传输层面，一条连接腾讯云和燧原科技的超大带宽专线拉起，保证传输通道安全可信。同时，腾讯云的iOA（智能办公自动化系统）方案，可确保终端的安全。

　　芯片仿真混合云平台于2022年6月正式上线，当年10月，算力达到初始规划的数倍。

　　仿真周期缩短30%—50%

　　算力“爆炸”背后，是一个关键的环节——芯片各项功能的一致性验证。在这一阶段，云平台始终处于高压状态，有时候，算力会突然冲到几万核——相当于在一瞬间同时拉起数百台大规格的机器，整个系统必须保持高稳定性和实时响应能力。在最激烈的时刻，三方人员进行了长达14天×24小时的轮班值守。

　　腾讯云具备丰富多元的裸金属实例、GPU（图形处理器）实例，在芯片的仿真验证和性能对比测试环节，可一站式完成多代次、多卡型的验证工作，极大提升部署效率和测试效率。

　　在远端，腾讯云越来越多的专家加入，工作群随时都有总监级研发人员被拉进去提供支持。速石也投入了包括首席架构师在内的大量精锐力量。经过不断的改进调优，平台最终做到充分的并行作业，在两分钟时间里即能快速完成服务器交付，小时级别完成研发环境交付。

　　最终，经过16天×24小时值守，他们成功了。

　　长达8个月的实战后，燧原科技看到了一张成绩单：总体任务并发量通过云端弹性同步提高，缩短仿真周期30%—50%。未来，燧原科技打算逐步扩大用云规模，尽量让使用弹性算力的环节都上云。