权威认可,天翼云高性能计算领域论文被IEEE HPCC 2025收录!

B站影视 港台电影 2025-09-10 04:30 1

摘要:近日,由天翼云科技有限公司基础架构事业部(操作系统技术部)高性能网络研发团队撰写的论文《APSCC: Adaptive Congestion Control for Packet-Sprayed RDMA Networks in AI Clusters》被20

近日,由天翼云科技有限公司基础架构事业部(操作系统技术部)高性能网络研发团队撰写的论文《APSCC: Adaptive Congestion Control for Packet-Sprayed RDMA Networks in AI Clusters》被2025年第27届IEEE国际高性能计算与通信会议(HPCC)高分录用。这标志着天翼云在高性能网络与人工智能集群通信领域的核心技术已达到国际领先水平,体现了天翼云在自主创新方面的强大实力。

IEEE HPCC是高速网络领域内享有盛誉的国际学术会议,获中国计算机学会(CCF)推荐,并受到IEEE、IEEE计算机协会和IEEE可扩展计算技术委员会(TCSC)大力支持。会议对论文评审严格,近三年平均接收率仅为17%。此次论文的成功收录,再次彰显了天翼云作为云服务国家队在高性能网络与人工智能集群领域的前沿技术实力与持续创新能力。

随着大型语言模型(LLM)训练对远程直接内存访问(RDMA)的依赖加深,高效数据传输成为可能。然而,LLM训练流量的稀疏性和带宽密集特性,在等价多路径(ECMP)路由下,可能导致严重的负载不均衡问题。例如,ECMP路由机制在分配流量时可能无法有效识别和处理带宽密集型的大数据流,从而加剧了链路拥塞,出现严重的负载不均衡问题。数据包喷射(Packet Spraying, PS)通过将流量分散到多条路径,为这一问题提供了一种有前景的解决方案,但它对网络拥塞动态的影响还缺乏系统性研究。

本次被收录的论文基于NS-3仿真平台,深入研究了人工智能(AI)集群环境下的数据包喷射机制,系统评估了在拥塞分布、数据包重排序以及流完成时间等方面的性能影响。研究结果表明,拥塞模式随工作负载强度和拓扑超额订阅比例的变化发生显著改变,而现有拥塞控制方案难以有效适应通用包喷洒(PS)网络中路径和拥塞热点频繁动态变化的场景。

针对上述问题,本研究提出了一种名为APSCC的新型拥塞控制算法。该算法通过乱序(OoO)数据包推断拥塞位置,并跨路径聚合显式拥塞通知(ECN)信号,实现精确的速率控制。如下图所示,APSCC由三个核心组件构成:发送方、网络和接收方。

算法概要流程

(1)发送方负责发送数据包,并执行拥塞控制的主要响应逻辑,包括目标阈值计算和窗口更新;

(2)交换机在队列深度超过预设阈值时,对数据包进行ECN标记;

(3)接收方则维护每个队列对(QP)上ECN标记数据包的统计信息,并将累积的ECN标记数量嵌入至确认包中。

发送方在接收到ACK后触发APSCC算法,该算法基于以下三个关键输入运行:(1)传输层报告的乱序距离;(2)ACK中传递的ECN标记数量;(3)当前ACK事件所确认的数据包数量。

为进一步在统一ECN标记阈值下实现交换机间的公平性与收敛性,APSCC采用动态计算公式来确定目标ECN比率。如下图所示,该阈值函数以当前拥塞窗口大小作为主输入参数:窗口增大时,阈值相应降低,使发送方能够更迅速地响应拥塞并倾向于降速;相反,拥塞窗口较小的流则被分配较高阈值,从而获得更大容忍度与更多速率增长机会。

动态目标值计算曲线

该机制内置负反馈作用,显著增强系统稳定性。当流因阈值过于敏感而导致窗口过度缩小时,随之升高的阈值将抑制进一步缩减,促使窗口恢复正常水平。同样,在加法增加阶段,也展现出良好的自稳定特性:随着各流逐渐收敛至公平窗口大小,竞争QP之间的同步行为共同作用,有效稳定了拥塞交换机的队列占用率。

论文实验结果表明,与现有先进机制相比,APSCC能够将模型训练时间最多缩短30%,展现出优越的综合性能。

目前,APSCC是天翼云自主研发的一款面向智算网络的高性能拥塞控制算法,专为当前大规模人工智能训推基础设施设计。该算法具备包粒度负载均衡下的自适应流量调度能力,通过对网络时延与吞吐量的协同优化,能够在高速RDMA环境中显著提升模型训练与推理任务的效率,帮助企业充分释放底层网络性能潜力,为AI业务提供高效、稳定的运行支撑。

在AI大模型迈向万卡级集群的背景下,网络性能已成为制约训练和推理效率的关键瓶颈。未来,天翼云将深入贯彻落实创新驱动发展战略,紧密结合科技创新,积极探索前沿技术,在关键核心技术领域不断取得新突破,为筑牢国云底座、助力数字强国建设贡献更多力量。

来源:中国电信天翼云

相关推荐