SIGCOMM 2025发榜:北大刘古月组5文入选,用光交换机重构AI系统,用大模型定位故障……

B站影视 内地电影 2025-09-22 19:35 1

摘要:在 ACM SIGCOMM 2025 上,北京大学计算机学院网络与高能效计算研究所刘古月助理教授课题组(https://grace-liu.github.io/)共有 5 篇高水平论文(4篇长文+1 篇短文)入选。

责编 | 梦依丹

本文系作者投稿

在 ACM SIGCOMM 2025 上,北京大学计算机学院网络与高能效计算研究所刘古月助理教授课题组(https://grace-liu.github.io/)共有 5 篇高水平论文(4篇长文+1 篇短文)入选。

作为计算机网络系统领域历史最为悠久也最为权威的学术会议,SIGCOMM 以其严苛的标准著称,对论文的质量要求极高,要求所录用的论文具有基础性贡献、领导性影响和坚实系统背景。

本年度 ACM SIGCOMM 共有 461 篇投稿,录用 74 篇, 录取率仅为 16.1%。

刘古月助理教授课题组凭借 5 篇论文入选,成为本年度 SIGCOMM 全球发文数量最多的高校课题组。此次被录用的 5 篇论文研究成果涵盖多个前沿领域,包括高带宽域网络架构、可重构光电混合网络架构、DNS 日志压缩、网络运维与故障定位和加密流量异常检测等。

以下是论文简要内容介绍。

基于光交换收发器的大语言模型数据中心规模高带宽域架构

大语言模型(LLM)的训练依赖多维并行,其中高带宽域(High-Bandwidth Domain,HBD)是支撑张量并行等通信密集型并行方式的关键。然而,现有 HBD 架构在可扩展性、成本和容错性方面存在根本性局限:

以交换机为中心的 HBD(如 NVL-72)在规模扩展时成本高昂;

以 GPU 为中心的 HBD(如 TPUv3/Dojo)则容易导致严重的故障传播;

而交换机与 GPU 混合型 HBD(如 TPUv4)虽采取折中方案,但故障爆炸半径依旧较大。

论文“InfiniteHBD: Building Datacenter-Scale High-Bandwidth Domain for LLM with Optical Circuit Switching Transceivers”提出了一种全新的收发器中心型HBD 架构。

该架构的核心创新在于:首次将光路交换(Optical Circuit Switching, OCS)嵌入收发器内部,在收发器层面统一实现连通性与动态切换,从根本上突破了以往“收发器仅支持点到点通信、路由依赖高端交换机”的设计范式。

通过这一设计,InfiniteHBD 支持可重构的点到多点通信与可变规模环形拓扑,从而兼顾灵活扩展性、节点级故障隔离与高效带宽利用。InfiniteHBD 包含三项关键机制:

其一,基于硅光技术的OCS 收发器(OCSTrx),在低功耗和低成本下实现微秒级链路重配置,能够直接集成至商用高速收发器中;

其二,可重构K-Hop Ring拓扑,利用节点内回环与跨节点备用链路动态构建最优并行组,既能支持不同规模模型的最优张量并行配置,又能在节点故障时快速绕过失效单元,显著缩小故障影响范围;

其三,HBD-DCN 协同编排算法,在并行组划分和网络调度层面实现HBD 与 DCN 的联合优化,有效降低跨 ToR 流量和潜在拥塞,从而提升端到端训练性能。

实验结果表明,InfiniteHBD 的成本仅为 NVL-72 的 31%,GPU 浪费率几乎为零(比 NVL-72 和 TPUv4 低 10 倍以上),在 7% 节点故障率下仍能保持接近零的跨 ToR 流量,并在模型 FLOPs 利用率上较 NVIDIA DGX(8 GPUs/节点)提升 3.37 倍。

该论文第一作者为计算机学院 2025 级博士生寿晨宸(导师为刘古月助理教授),合作作者包括北京大学刘古月助理教授(共同通讯作者)、阶跃星辰聂浩(共同通讯作者)、周禹、朱亦博、姜大昕等,曦智科技孟怀宇(共同通讯作者)、吕文清、沈亦晨等。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750468

一种快速且高压缩率的域名系统(DNS)日志压缩新方法

域名系统(DNS)日志记录了 DNS 服务器与客户端之间的查询与响应的详细信息,在网络安全监控、合规审计等应用中起着至关重要的作用,这些应用通常需要长期保存日志数据。随着互联网流量的快速增长,DNS 日志的数量呈指数级上升,给存储带来了巨大的压力。

虽然许多 DNS 运营商采用通用压缩算法以降低存储成本,但这些方法未能充分利用 DNS 数据的独特特性,导致压缩效率不高,存储需求持续增加。为此,论文“DNSLogzip: A Novel Approach to Fast and High-Ratio Compression for DNS Logs”提出了一种新型解决方案,旨在实现对 DNS 日志的无损、高速且高压缩比的处理。

基于对真实 DNS 日志数据集的深入实证研究,论文发现了四种关键的行间与行内特性,可有效去除冗余而不丢失信息。DNSLogzip 通过模块化压缩架构充分利用这些特性,能够适应不同日志格式,并支持按需集成与定制。论文已在两家一级互联网服务提供商(ISP)的生产环境中部署 DNSLogzip,对实际日志进行压缩。

实验结果表明,DNSLogzip 可将存储成本降低约三分之二,每个 DNS 服务节点每月可节省高达 16.3 万美元。

该论文的第一作者为东南大学博士生戴云伟和北京大学刘古月助理教授(同等贡献)。合作作者包括黄韬教授(通讯作者),以及来自北京邮电大学网络与交换技术国家重点实验室、紫金山实验室、江苏致网科技有限公司、中国移动、中国电信、中国联通的研究者。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750476

面向大规模生产网络的基于大模型的故障定位

故障根因分析与定位对于保障云网络运维的可靠性至关重要。当发生故障时,网络运维人员需要查阅海量监控数据,并尽快定位根因(即故障设备),即便对于经验丰富的运维人员来说,这也是一项极具挑战的任务。大型语言模型(LLM)在文本理解与推理方面展现出巨大潜力。

论文“Towards LLM-Based Failure Localization in Production-Scale Networks”提出了 BiAn——一个基于 LLM 的框架,旨在辅助运维人员高效开展故障排查。

BiAn 能够处理监控数据,并生成带有详细解释的故障设备排序。迄今为止,BiAn 已在网络基础设施中部署 10 个月,成功帮助运维人员更快速地识别故障设备,将根因定位时间缩短了 20.5%(对于高风险故障事件,则缩短 55.2%)。基于 17 个月真实案例的广泛性能评估进一步表明,BiAn 在故障定位方面既准确又高效,其定位准确率相比基线方法提升了 9.2%。

该论文的第一作者为南京大学博士生王宸旭。合作作者包括上海纽约大学博士生陆润炜(导师北京大学刘古月助理教授),南京大学田臣教授(共同通讯作者)、陈贵海教授,北京大学刘古月助理教授(共同通讯作者),以及来自阿里云的蔡德忠、翟恩南(共同通讯作者)等研究者。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750505

一种用于分布式混合专家模型(MoE)训练的运行时可重构光电混合网络结构

混合专家(Mixture-of-Expert, MoE)模型通过对每个 token 选择性地激活不同的子网络(称为专家)来超越传统模型。这种门控计算会产生动态通信模式,而这种通信在训练前无法预测,给现有在分布式训练中保持静态的 GPU 互连带来了挑战。

为此,论文“MixNet: A Runtime Reconfigurable Optical-Electrical Fabric for Distributed Mixture-of-Experts Training”提出了首个支持拓扑重配置的系统,可在分布式 MoE 训练中动态调整网络拓扑。

为实现这一目标,论文首先进行了生产环境测量研究,发现 MoE 的动态通信模式具有很强的局部性,从而降低了对全局网络重配置的需求。

在此基础上,我们设计并实现了一个区域可重配置的高带宽域,通过光交换(Optical Circuit Switching, OCS)增强现有电互连,实现了在保持快速适应性的同时具备良好的可扩展性。论文使用商用硬件和定制的集合通信运行时构建了完整的 MixNet 原型,并在 32 块 A100 GPU 上实现了支持训练期间拓扑重配置的最先进 MoE 模型训练。

大规模分组级仿真结果显示,MixNet 的性能可与非阻塞胖树(fat-tree)网络媲美,同时在 100 Gbps 和 400 Gbps 链路带宽下,四个代表性 MoE 模型的网络成本效率(性能/美元)分别提升 1.2倍到1.5倍和1.9倍到2.3倍。

该论文的第一作者为香港科技大学博士生廖旭东。合作作者包括 MIT 博士后钟致臻(共同通讯作者) ,北京大学助理教授刘古月,香港科技大学教授陈凯(共同通讯作者)以及来自中国科学技术大学、Meta、恒为科技和厦门大学的其他研究者。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750465

基于可编程交换机实现高速且鲁棒的加密流量异常检测(短文)

随着应用快速扩展,数据中心面临的攻击也愈加频繁。为保护数据中心,互联网服务提供商(ISP)需要高效的安全防护。然而,现有网络入侵检测系统(NIDS)在高速加密流量下往往效果有限。

论文 “Achieving High-Speed and Robust Encrypted Traffic Anomaly Detection with Programmable Switches” 设计并实现了 Mazu,一种部署在可编程交换机上的内联式 NIDS,专门用于数据中心防护。

Mazu 采用双平面特征提取模型,在接近线速下获取丰富流量特征,并利用轻量级分类模型(仅基于正常流量训练)识别异常。它还支持在线更新机制,能随环境变化动态调整。

Mazu 已在两家 ISP 投入生产两年,保护了超过千万台服务器,成功阻止 10 余起重大攻击。实验结果显示,其在几分钟内即可检测到进入数据中心的恶意流量,准确率约 90%。

该论文的第一作者为清华大学张晗副教授。合作作者包括北京大学刘古月助理教授(共同通讯作者),清华大学李亚慧助理研究员(共同通讯作者),以及来自清华大学、深信服科技股份有限公司和中国电信的其他研究者。

论文链接:https://dl.acm.org/doi/10.1145/3718958.3750493

刘古月课题组长期致力于数据中心网络、广域网、AI系统以及云计算等领域的前沿研究,在理论创新、技术突破和系统研发方面取得了多项重要成果。团队已在SIGCOMM、NSDI、OSDI、ASPLOS、EuroSys等国际顶级会议发表学术论文40余篇,与华为、腾讯、阿里巴巴、中国华电、京东、智源研究院、阶跃星辰、曦智科技等知名企业和研究机构携手开展项目合作与前沿探索,针对实际问题提出系统化解决方案,推动科研成果在产业中的转化与落地。( 投稿或寻求报道:zhanghy@csdn.net )

【 活动分享】2025 全球机器学习技术大会将于 10 月 16–17 日在北京威斯汀酒店召开,届时全球顶级学者与产业领袖将齐聚一堂。本次盛会汇聚了 GPT-5 & Transformer 核心共同发明人、OpenAI 资深研究科学家 Lukasz Kaiser,前 OpenAI 研究员、清华大学交叉信息院助理教授吴翼,前 DeepMind 研究员、Astribot 副总裁王佳楠这样定义 AI 时代的全球技术奠基者。

更集结了来自百度、阿里、腾讯、字节跳动、小米、理想汽车、小红书、智谱、群核科技等国内 AI TOP 企业的一线实践者,以及北京大学博雅特聘教授李戈等全球顶尖学者及产业精英、顶会论文作者,他们将围绕大语言模型技术演讲、大模型应用开发实践、智能体工程与实践、软件研发与氛围编程等当下最贴近开发的前沿专题展开分享,共同探讨 AI 技术的突破与落地实践。详情参考官网: https://ml-summit.org (或点击原文链接)。

来源:CSDN一点号

相关推荐