摘要:近日,华为云2篇论文分别入选国际顶级会议KDD 2025和ACM SIGCOMM 2025,获得业界专家的高度认可。这2篇论文展示了华为云在数据中心网络故障管理与可扩展BGP仿真方面的探索技术成果,基于华为云确定性运维体系的实践与创新应用,为大规模数据中心提供
近日,华为云2篇论文分别入选国际顶级会议KDD 2025和ACM SIGCOMM 2025,获得业界专家的高度认可。这2篇论文展示了华为云在数据中心网络故障管理与可扩展BGP仿真方面的探索技术成果,基于华为云确定性运维体系的实践与创新应用,为大规模数据中心提供高可靠、弹性扩展的解决方案,推动云计算与AI时代网络基础设施升级,加速智能化进程。
FlowXpert: Expertizing Troubleshooting Workflow Orchestration with Knowledge Base and Multi-Agent Coevolution
论文链接:https://dl.acm.org/doi/10.1145/3711896.3737221
论文由华为云数据中心网络团队、华为数通研究部、南开大学和清华大学合作撰写,被KDD 2025会议录用。KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是数据挖掘与知识发现领域的顶级国际学术会议,致力于推动数据科学的基础研究、技术应用与跨学科发展,是中国计算机学会(CCF)推荐的A类会议。
在云计算环境中,数据中心网络的稳定性和可用性至关重要,而传统故障管理依赖人工编排,效率低、成本高,难以应对复杂多变的运维场景。针对这些问题,华为云数据中心网络团队主动引入AI Agent和LLM 技术,协同数通和高校开展相关技术研究,提出了FlowXpert,一种用于故障排除工作流编排的新型框架,以“混合知识库+多智能体协同进化”为核心技术架构,实现了从经验驱动到AI驱动的跨越式升级。基于确定性运维体系,华为云加速智能运维能力建设,不断提高运营效率与组织协同水平。通过连接专家经验与物理世界,持续优化AI算法能力,提升云上业务韧性。
深度知识融合:通过向量索引(VectorBase)与图结构(Graph Base)与的混合知识库,精准提取故障事件的专业知识,解决传统方法信息关联浅、粒度不当的痛点;智能体协同进化:生成器(Planner)与评分器(Scorer)基于强化学习(PPO/DPO)动态优化,生成的工作流关键步骤召回率提升显著,超行业平均水平;全链路评估体系:首创 OpsFlowBench基准数据集与 STEPScore指标,确保工作流兼具可读性、可执行性及合规性。FlowXpert框架
FlowXpert在工作流编排方面展现出卓越的效率,仅需22秒即可完成原本需要人工7小时才能完成的任务,效率提升高达千倍。在实际测试中,FlowXpert基于数据中心网络生产环境中的3.4万条告警数据进行验证,生成的结果80%以上符合直接采纳标准,充分体现了系统在复杂场景下的高准确率与实用性。
论文研究表明,知识建构、反馈优化以及多智能体协同机制不仅在运维排障场景中展现良好效果,也具备进一步推广至其他应用领域的潜力。展望未来,华为云将持续探索新型故障处理和协同进化等领域,不断提升FlowXpert在实际部署中的适用性与可靠性。
Scalable BGP Simulation of Hyper-Scale Data Center Networks
论文链接:https://dl.acm.org/doi/10.1145/3750022.3750455
论文由华为云数据中心网络团队和厦门大学合作撰写,被ACM SIGCOMM 2025录用。ACM SIGCOMM作为中国计算机学会(CCF)推荐的网络通信领域TOP1国际学术会议,该会议不仅看重研究的理论深度与实践支撑,更强调其在学术与产业界的实际价值,入选论文堪称计算机网络领域最新突破的缩影与未来趋势的风向标。
现代云数据中心网络(DCN)规模庞大,传统BGP仿真工具在处理大规模拓扑、非单调配置和增量仿真时面临严谨的挑战。华为云提出了vBGPSim,这是一个专为超大规模DCN设计的通用BGP仿真器,通过拓扑压缩和广义Dijkstra算法提升可扩展性,集成撤销机制提高准确性,并支持增量仿真。在生产环境和合成DCN上的广泛测试表明,vBGPSim能够扩展到超过10,000台交换机的网络,准确处理非单调更新并支持高效的增量仿真。
在面对超大规模DCN配置变更时,系统通过智能识别变更前后业务节点间的连通性变化,可有效预判潜在风险,实现变更操作前的问题预警与规避,保障业务连续性。在性能方面,系统能够在5分钟内完成万级网元的仿真验证,全网及子网互访矩阵的构建时间控制在12分钟以内,为大规模网络变更提供了高效、可靠的技术支撑。此次技术突破不仅显著提升了网络运维的自动化水平,也为构建更加稳定、智能的数据中心网络体系奠定了坚实基础。
新网络压缩方法:基于BGP协议的新型网络压缩方法,该方案针对单点设备,根据其BGP属性进行智能合成,判断设备是否符合压缩逻辑,在路由传播过程中显著降低计算复杂度。压缩逻辑可根据DCN网络特性按需适配,确保改进后的节点在本地属性、聚合路由、策略配置、邻居阶段及非ToR节点AS号一致的前提下进行合并,该方法有效减少仿真所需的节点和链路数量,大幅提升超大规模网络仿真的效率和可行性。改进的BGP快速仿真方法:考虑到大型数据中心网络通常具有单调性,即局部最优路由即为全局最优路由,因此在这些场景下可改用基于Dijkstra的仿真方法,实现更快速、高效的仿真计算。相较于Bellman-Ford算法,Dijkstra方法能够在每轮中直接选出最优路由,通常只需要一轮迭代即可完成。然而,对于某些非单调配置,Dijkstra方法无法准确反映实际路由行为。为此可结合路由撤回机制,消除非单调配置带来的仿真误差,从而提升整体仿真的准确性与可靠性。结合以上两个创新技术方法,可在5分钟内完成万级网元的全量表项仿真,总耗时仅214秒,首次实现了对超大规模DCN网络的仿真与验证能力。大幅提升了网络规划和优化的效率,为华为云未来在大规模通信网络的建设提供了强有力的技术支撑。
华为云在KDD和SIGCOMM国际顶级会议上入选论文,展示了华为云在数据中心网络技术研究领域的国际领先水平。未来,华为云将持续通过前沿技术的研究和应用落地,帮助客户在质量、成本和效率中寻找最优方案,为客户全球业务保驾护航。
来源:华为云