摘要:在数字化浪潮的推动下,算力网络已成为数字中国发展的关键新型信息基础设施。它不仅是对现有算力资源的再建设,更是一个全新的基础设施,需要我们探索一条兼容并蓄、持续发展的建设方法和路径。算力网络是一个极其复杂的系统,它需要我们攻关推动全社会算力普惠和高效服务的创新技
中国移动研究院高校
创新载体标志成果
系列报道
面向算力网络的大科学装置试验场设计及验证平台
中科院计算所-中国移动研究院联合创新平台
研究背景
在数字化浪潮的推动下,算力网络已成为数字中国发展的关键新型信息基础设施。它不仅是对现有算力资源的再建设,更是一个全新的基础设施,需要我们探索一条兼容并蓄、持续发展的建设方法和路径。算力网络是一个极其复杂的系统,它需要我们攻关推动全社会算力普惠和高效服务的创新技术和服务模式,从而有效促进算力网络技术的跨越式发展。
2023年11月,中国移动与中科院计算技术研究所强强联合,开展算力网络联合试验场建设,并对算力并网及调度、跨域无服务器计算等关键技术展开研究。
成果介绍
图 超宽带紧凑型光电全息MIMO样机
中国移动结合现有算力网络新型基础设施和服务理念,为了促进算力原始创新和应用孵化,已经构建了中国移动算力网络试验示范网(CFITI)创新试验环境。并结合算网工程和科学问题,针对算力网络联合试验场建设,针对跨主体的试验场定位、框架、设计和发展路径以及关键实验内容进行论述,形成《算力网络试验场总体研究设计报告》。该报告详细论述了算力网络试验场的发展阶段,为后续试验场建设从基础创新试验场向创新原创技术试验场演进提供了重要参考。
在设计报告建设思路的指引下,中国移动以CFITI为触手,与中科信息高铁南京、北京试验场建立传输专线,并开展超算并网合作,融合异属异构高性能计算集群,初步构建了以跨域跨主体的算力网络试验场雏形。基于算力网络试验场雏形,完成了高性能计算在运营层、管理编排层的算力并网实践。
创新成果1:
虚拟超算并网验证及试验应用
图1 高性能算力并网(ISCTech2024)论文首页图2 基于超算并网不同精度下的地震预测效果在编排管理层并网中,聚焦高性能计算技术框架差异大的难题,通过统一的资源模型实现队列虚拟化,将异属算力中心融合为单虚拟算力中心,实现高性能计算并网器功能。通过将异属高性能计算中心队列抽象成虚拟高性能计算队列(即虚拟队列),可基于多种策略进行资源调度,实现屏蔽异构集群、跨域调度、队列无感知。
课题基于算力网络试验场已有环境,联合合作伙伴展开对高性能计算并网地震预测应用验证。验证结果表明,该系统可有效支撑高性能计算算力分发调度、实现地震应用的有效分发,如基于多因素的优先级调度可将作业调度至不同高性能计算架构的资源节点。基于以上研究成果,形成论文《Design and Practice of Super-computing Grid Integration in Computility Network》,被IEEE第十二届信息系统与计算技术国际会议录用。
创新成果2
跨域任务式Serverless平台
图3 多云Serverless融合架构图4 基于跨域Serveless的AI场景验证试验为解决跨算力主体轻量化低成本的服务,构建一套基于Serverless的跨平台框架,可对计算任务进行动态感知、量化和调度,实现计算任务在多云间灵活部署和调整。同时,针对部署在多个云上的计算任务,通过跨云数据同步以及自适应通信加速,实现多云间有状态计算。此外,该平台创新纳入MPI机制,支持在Serverless环境中部署MPI任务和低成本跨域AI训练,实现并行计算任务的弹性可扩展。
成果亮点
算力网络技术仍在上升发展期,其技术和产品在成熟度方面仍存在不足,课题创新提出算力网络试验场的概念,并针对算力网络实验场在《算力网络试验场总体研究设计报告》中进行了详细建设、规划分析。该报告是国内首个关于算力网络试验场建设的方法论的研究报告,系统性地阐述了算力网络试验场的建设内容和建设思路。该报告不仅有效支撑算力网络试验场建设和实施,还在算力网络理论突破、技术创新和工程布局等方面具有重要的推动作用。
通过试验场建设,填补了CFITI算力并网服务平台高性能计算算力空白,并通过多层次算力并网实践,为高性能算力并网领域提供案例参考,降低了算力供给难度,提升了高性能算力接口开放度,为算力网络关键技术验证提供基础试验环境,为技术和产业界提供具备异属异构等特征的算力试验环境的标杆。论文基于前期验证数据,有效总结了本次课题成果。论文中基于试验场的验证有效支撑了地震预测应用,根据精度、计算结果等参数实现最优调度、多地部署,为应用提供更高效更匹配的算力服务能力。相关技术方案(如运营层高性能计算并网)已落入中国移动企业标准并逐步在省公司实践商用。
在算力网络试验场中,针对跨域无服务计算,突破了任务部署管理复杂、资源高效分配难、大批量数据同步时效低、任务并行不支持等难题,实现了多云任务统一管理、多目标按需调度、数据自适应加速同步、多任务自动并行的Serverless平台,有效将跨云AI训练时间最大可缩短7.2%,跨域AI推理数据传输时间至少降低24.3%,MPI跨域计算较物理机性能损耗控制在1.47%以内。为业界提供跨域无服务计算示范案例,基于多云算力提供分布式服务,实现云间算力细粒度拆借、动态扩展、并行计算,充分挖掘全社会算力价值,有效促进算力供给结构优化。
来源:新浪财经