2025 中国计算机学会(CCF)标准技术全会 “AI 基础设施分论坛” 在武汉召开,来自产学研界的百位专家围绕智算集群、GPU 服务器、光电共封装等关键技术领域的标准化推进展开深度研讨。本次论坛由全国智能计算标准化工作组(SAC/SWG32)秘书处牵头,旨在破解 AI 基础设施 “卡脖子” 难题,构建自主可控的技术生态体系。
一、智算集群:从 “算力堆砌” 到 “智能调度”
中国信通院云计算与大数据研究所高级业务主管刘天赐在题为《超大规模智算集群服务关键技术及未来趋势展望》的报告中指出,当前国内智算集群建设面临资源利用率低、异构协同不足、能耗高等痛点。以某超算中心为例,其 GPU 算力利用率不足 40%,主要因跨节点数据传输延迟导致计算中断。为此,信通院正推进 “智算集群服务能力分级标准” 研制,拟通过统一资源调度协议、定义能效评价指标,推动算力利用率提升 20% 以上。
浪潮电子信息产业股份有限公司体系结构研究部总经理李仁刚则从硬件架构创新角度提出解决方案。其团队研发的融合架构 3.0 原型系统,通过芯片级异构集成技术,将 CPU、GPU、DPU 等算力单元与内存、存储资源深度解耦,实现 “一套系统支持 N 类应用”。该系统已在气象模拟、生物医药等场景中验证,可使数据中心 PUE 降低至 1.1 以下,算力弹性扩展能力提升 3 倍。
二、光电共封装技术:突破互连瓶颈的 “关键一跃”
随着 AI 模型参数规模突破万亿级,传统电气互连的带宽与能效瓶颈日益凸显。之江实验室前沿基础研究中心副主任虞绍良在《面向智算中心的光电共封装技术》报告中指出,光电共封装(CPO)技术通过将光引擎与 ASIC 芯片集成,可使互连带宽密度提升 3 倍,功耗降低 75%。其团队研发的 CPO 原型系统已在某智算中心试点,在万卡集群中实现跨机柜数据传输延迟低于 50 纳秒,支撑大模型训练效率提升 15%。
不过,技术落地仍面临挑战。虞绍良坦言,光器件与芯片的工艺兼容性、高密度散热设计等问题亟待解决。“我们正在联合产业链上下游制定《智算中心光电共封装技术规范》,计划 2026 年完成标准草案,推动技术规模化应用。”
三、国产化生态:从 “标准跟随” 到 “生态引领”
面对国际技术封锁,国产化生态构建成为论坛焦点。沐曦集成电路研究院院长李兆石提出,需通过 “标准 + 开源” 双轮驱动打破垄断。其团队主导的 Scale-up 网络协议已实现与主流 GPU 的兼容,在超节点系统中可使算力利用率提升至 85% 以上。“我们正在建设开源社区,计划年底前开放核心代码,吸引更多开发者参与生态共建。”
全国政协委员、中国工程院院士邓中翰在视频连线中强调,标准是技术规则的载体,也是产业生态的基石。“英伟达的护城河不是 GPU 本身,而是 CUDA 生态。我们需要建立自主的标准体系,例如在 AI 编译器、算子库等领域制定行业规范,让国产芯片‘好用’更‘易用’。”
四、标准化改革:从 “纸上谈兵” 到 “落地生根”
为确保标准实效,论坛同步启动 “AI 基础设施标准验证平台” 建设。该平台由 CCF 联合华为、阿里云等企业共建,可对智算集群、光互连设备等进行性能测试与合规认证。例如,阿里云超高速互连负责人孔阳透露,其研发的 UALink 协议已通过平台验证,在 GPU Scale-Up 场景中可使通信效率提升 25%,目前正与 10 余家芯片厂商对接适配。