2024年08月26日 星期一
超级工程填补算力缺口
——探访全球运营商最大单体智算中心

    ◎本报记者 杨 雪

    人工智能(AI)应用催生了巨量智能算力需求。为了解算力基础设施如何赋能AI等相关产业发展,记者近日走进内蒙古呼和浩特市,探访全球运营商最大单体智算中心——中国移动智算中心(呼和浩特)。

    该智算中心位于中国移动呼和浩特数据中心,拥有1.9万张GPU卡、6万余根线缆,其外观、占地规模与周边8座单体数据中心无异,但算力规模却是这些数据中心总和的10倍之多。

    6月28日,该智算中心全部集群正式上线。它的启用将有助于填补我国AI广泛应用所需算力的巨大缺口,赋能交通、医疗、教育、能源、金融等行业大模型训练。该智算中心入选国资委“2023年度央企十大超级工程”。

    模型训练更高效

    2023年工信部等部门发布的《算力基础设施高质量发展行动计划》明确,到2025年,我国算力规模超过300EFlops(EFlops指每秒百亿亿次浮点运算次数),智能算力占比达到35%。

    截至今年6月底,中国移动已在京津冀、长三角、粤港澳大湾区、成渝、贵州、内蒙古、宁夏、黑龙江、湖北、山东等地投产首批13个智算中心。这些智算中心的智能算力规模达到19.6EFlops,在总算力中占比超70%。其中,中国移动智算中心(呼和浩特)最为亮眼,国产化算力占比超85%。

    “中国移动智算中心(呼和浩特)部署了约2万张AI加速卡,智能算力规模高达6.7EFlops。”中国移动呼和浩特数据中心工程师孟繁跃介绍,该智算中心可提供通智一体化算力服务,以及从模型迁移、模型训练调优到推理部署等端到端的解决方案,让大模型训练更加高效。

    运行环境更稳定

    在该智算中心建设过程中,超百位专家驻场。他们自主研发了一系列关键技术,解决超万卡集群的调优和运维难题。

    中国移动云能力中心智算专家李道通介绍,驻场专家研发出一套自动化智算中心交付体系,能实现标准化流程、自动化部署与高效协同作业,为中心营造开箱即用、性能卓越的稳定运行环境。

    “我们还研发出智能管控平台,实现对AI训练任务的全生命周期管理。从训练前的集群健康预检,到训练过程中的实时状态监控,再到训练后的故障智能分析,平台可保障训练高效稳定进行。”李道通说。

    同时,该智算中心组建专业集成调优团队,专注于数据治理、模型跨平台迁移、训练效率优化及推理加速等关键环节,提供从模型设计到部署应用的全栈调优服务,实现大模型在不同AI芯片生态间的无缝衔接与最优性能表现。

    能耗管理更“聪明”

    今年7月,国家发展改革委等四部门出台的《数据中心绿色低碳发展专项行动计划》提到,到2025年底,全国数据中心平均电能利用效率(PUE)降至1.5以下。“我们从制冷、绿电、能耗管理三方面,全系统打造节能创新体系,在保障安全稳定可靠运行基础上,实现绿色节能,PUE全面压降到1.15。”中国移动呼和浩特数据中心副总经理李程贵介绍。

    在制冷方面,该智算中心大规模引入前沿冷板式液冷解决方案,搭载闭式冷却塔、小母线等新型节能技术。同时,园区内95%以上设备采用新型空调末端,缩短了空调送风距离,解决了传统数据中心中常见的局部过热问题。当冬季到来,还可利用余热回收技术,降低冷却水系统能耗。

    李程贵说,该智算中心结合内部偏差率控制等举措,最大程度提高绿电使用比例,这一比例目前已达到80%。

    中心还构建了一套计量规范、准确度高、分析精准的能耗管理平台。该平台可自动监测并诊断制冷、供电全链路的异常数据,根据分场景特征构建能耗管理模型,自动生成数据,持续分析制冷系统运行质量,实现能耗动态调优。

京ICP备06005116