摘要:偌大的会场座无虚席,连过道上的转播屏前都站满了人。屏幕上闪动着算力曲线与架构图……在人潮如织的2025开放计算技术大会上,从中国移动到阿里云,从字节跳动到OCP组织,发言者口中都不约而同跳出同一个热词——超节点。
如何迎接大型超节点建设时代?
文|赵艳秋 周享玥
编|牛慧
偌大的会场座无虚席,连过道上的转播屏前都站满了人。屏幕上闪动着算力曲线与架构图……在人潮如织的2025开放计算技术大会上,从中国移动到阿里云,从字节跳动到OCP组织,发言者口中都不约而同跳出同一个热词——超节点。
这个被视为下一代智算中心核心的Scale-Up架构,正在迎来建设年。大模型与多智能体协作,将算力需求逼到单芯片的物理极限:业界正在把几十甚至上百颗芯片,通过高速互联“缝”成一台超大号的“电脑”,在物理极限与工程可行性之间找到平衡。
浪潮信息在此次大会上带来了面向万亿参数大模型的“元脑SD200”,这是一款可商用、可快速落地、价位普惠的产品,支持64路本土GPU芯片,并宣布开放架构来拉动产业链。浪潮信息副总经理赵帅说,超节点的竞争核心不止于硬件,更关乎软硬协同、生态与开放,而这正是浪潮信息十余年沉淀的结果。
01
建设热来袭,企业需要怎样的超节点
“我们很快就要进入大型超节点建设时代。”中国移动研究院副院长段晓东在2025年开放计算技术大会上说。超节点建设热来袭,国内外厂商“百花齐放”。
所谓“超节点”,虽然业界尚未形成严格统一的定义,但达成的共识是,它是一种极致的Scale-Up架构,把几十、上百颗加速芯片,通过内部高速互联整合成一个逻辑统一的计算单元——既像一台超大号的“单机”,又可以作为数据中心的核心模块存在。
为什么业界会选择Scale-Up路线?这背后,正是大模型的发展将其推向台前。
大模型竞赛将算力需求推向新高。2025年开年以来,DeepSeek-R1、Qwen3、MiniMax-VL-01、GLM 4.5等开源模型密集涌现,下载量和衍生模型数量呈爆发式增长。同时,智能体在企业端快速落地,Gartner的数据显示,中国企业Agent生产落地比例达到15%,高于去年全球平均的10%。AI正全面渗透到生产与生活场景,持续推高算力消耗。
在这一背景下,资本与基础设施建设热潮加剧。麦肯锡预计未来5年全球AI数据中心总投资将达到5.2万亿美元,到2030年AI数据中心的算力容量将达到2025年的3.5倍。
而在技术层面,这股浪潮已把单芯片推到了极限,就像“用一张桌子承载整栋楼的重量”,单芯片的显存与带宽都已无法支撑万亿参数大模型,必须用多颗芯片协同计算;大模型推理对延迟又非常敏感,多卡互联长链路带来高延迟,成为性能瓶颈。
这使得Scale-Up架构成为业界亟需攻克的关键方向。Scale Up在内部以高速总线连接多个芯片,实现并行计算和数据同步,用极简网络架构,把芯片尽可能“挤”在高速通信的极限范围内,构建统一寻址的Scale-Up域。赵帅称,这是物理极限与工程现实的双重选择。
然而,这并不意味着算力架构会单向朝着Scale Up路线演进。赵帅总结,“未来3到5年,Scale Up和Scale Out会同步推进,Scale Up域会越做越大,Scale Out的规模也会持续增长。这是大家的一个必然选择。”
在这样的趋势下,企业对超节点的期待也变得务实而具体:它需要能尽快投入业务。
浪潮信息的调研显示,许多客户的难点在于部署,一些方案对基础设施要求过高,需要液冷、高压供电和复杂的互联配置,与客户已有的成熟基础设施难以兼容,落地难度很大。此外,互联网及运营商等超节点客户还面临一个突出问题,光模块故障率甚至超过了GPU,不仅增加维护成本,还直接威胁业务稳定性。
在选择超节点时,企业还要同时权衡多方面因素:性能要可以支撑万亿参数级大模型和多智能体应用;成本要顾及全生命周期,涵盖Capex(资本支出)和Opex(运营支出);系统还必须稳定可靠,经得起高强度推理和训练的考验。
针对这些现实需求,浪潮信息推出的“元脑SD200”超节点,特意采用了相对成熟稳定的底层技术,如电互联和风冷,以此换取最快部署速度。它可直接落地客户现有机房,客户不必改造基础设施。
在性能方面,SD200选择64路本土GPU芯片,可运行1.2万亿参数的Kimi K2,并支持DeepSeek、Qwen、Kimi、GLM等多模型并行,以及多智能体实时协作与按需调用,且各任务不会出现互相资源争抢。
值得注意的是,超节点复杂度很高,传统系统管理软件“不够用”了,这要求超节点供应商在硬件创新之外,还必须在系统管理、监控、诊断、profiling等软件方面深耕,实现系统级优化。
还有一个关键考量是应用迁移的难易程度。很多客户在使用本土芯片时,常面临软件生态适配难题,底层通信库要重构、架构要重新适配,导致迁移成本居高不下。对此,元脑SD200全面支持业界主流开源大模型计算框架,如PyTorch算子支持2200+,新模型可实现无缝迁移与Day0上线。客户反馈,这对他们来说极具价值。
那么,“元脑 SD200”究竟带来了哪些核心创新?
在系统架构上,它采用了多主机三维网格(3D Mesh)设计,将64路本土GPU芯片高速互连,把原本局限在单机8卡的互联能力扩展到跨主机域。配合远端GPU虚拟映射技术,突破了多主机统一编址的难题,使显存地址空间扩展到8倍,单机可提供高达4TB显存与64TB内存,为万亿参数、超长序列的大模型运行预留了充足的KV Cache空间。
在延迟控制上,元脑SD200针对推理任务“小数据包、延迟敏感”的特性,选择了物理延迟最低的互联协议,并配合自研Smart Fabric Manager系统,在软硬件协同下将延迟进一步压缩至百纳秒级。
它还在PD分离框架上走出了更开放的一步。为了让计算逻辑与物理资源解耦,实现更灵活的算力调度,业界都在开发PD分离框架,以最大化芯片算力利用率。但目前来看,PD分离仍是定制化方案。浪潮信息投入大量研发资源,开发了开放式PD分离框架,使计算与通信架构深度协同,在客户的PoC测试中显著提升了性能。
目前,元脑SD200已投入商用,服务于大模型部署、行业应用以及AI for Science 等多个领域。新用户群体持续扩大,有些甚至是此前未预料到的。赵帅说:“以应用为导向,以系统为核心,在技术、生态、成本与性能之间找到最优平衡,才是真正的价值所在。”
开放和开源也是贯穿始终的理念,元脑SD200的加速芯片基于OAM架构,相关PD分离框架也将对外开放,推动更多产业合作,让更大的模型、更复杂的智能体,不再是少数企业的专属能力。
02
”我们不是一家纯硬件公司“
浪潮信息能快速推出面向万亿参数大模型的商用超节点,并非临时突进,而是公司多年软硬协同的结果。
“超节点的技术突破源于K1和融合架构的传承。”赵帅告诉数智前线。
2013年,浪潮信息完成了K1研发,当时团队面临的核心技术挑战之一是高速缓存一致性、性能线性扩展难题。CPU单一系统原生只能扩展8路,团队基于自研Node Controller,实现32路、64路扩展,满足缓存一致性的算力单元(CPU)纵向扩展,系统全局高速缓存一致性,让它们像“一个大脑”一样运行。
同时,为解决线性扩展难题,团队优化互连网络和内存层次结构,优化处理器本地访存、跨处理器访存和跨节点访存延迟,使系统规模从 8 路扩展到 64 路时保持性能线性增长。这为超节点的多主机统一编址、超线性扩展奠定了技术基础。
2014年,团队提出“融合架构”概念,尝试将计算、内存、I/O、存储等服务器资源解耦、池化、重构,变成可灵活调度的“资源池”,通过软件定义实现按需调配与弹性扩展。
在融合架构的研发过程中,浪潮信息实现多项技术突破。从最初供电、散热等非IT资源的整合,到存储、网络等资源池化,再到最新融合架构3.0系统实现了计算、存储、内存、异构加速等核心IT资源彻底解耦和池化,基于计算域总线建立池化资源fabric网络,解决I/O总线跨域通信以及I/O资源动态分配问题,实现单系统32 GPU卡扩展及8主机共享GPU资源池,支持在线动态分配;实现GPU跨域P2P通信,支持GPU资源池跨域扩展。
2023年,融合架构3.0发布
在管理方面,完成资源池化管理引擎fabric manager设计,池化管理引擎以fabric网络为核心,建立全局地址路由,通过协同管理自动发现拓扑、设置最优路由方案,实现池化资源的高效通信。
这些为超节点的研发积累了深厚的技术基础。同时,整体供应链逐步被“拉起来”,也为此次新架构快速落地,提供了有力支撑。
值得注意的是,超节点并不是简单的硬件堆砌,要让它跑出几倍甚至超线性的能力,必须“以系统为核心”。浪潮信息也不是一家“靠硬件吃饭”的公司。“我们一直是一家软硬协同的企业。”赵帅强调,多年在系统上的积累,才使得这次能迅速推出如PD分离框架、Fabric Manager等关键组件,加速超节点的落地和实用。
软硬协同一直是浪潮信息的技术特色。2015年,贾扬清在伯克利研发的深度学习框架Caffe问世时,整个行业的软硬件环境还极不成熟,部署一台服务器就需要一整天。浪潮信息研发推出了Caffe-MPI,实现了深度学习计算框架Caffe能“跑”在多台机器上。同期,英特尔等多个团队都在解决类似问题。
深度学习推动语音、图像识别等技术从实验室走向商用,人工智能迈入以 “小模型” 为标志的AI 1.0时代,浪潮信息深度参与了这波演进。
2015年,浪潮信息帮助国内一家头部AI企业,将语音识别算法迁移至GPU平台,加速业务落地。同期,新兴计算机视觉公司布局大规模GPU算力中心,资源管理和调度难题逐渐暴露。“我们决定在Infra上再下探一层,启动集群管理和调度平台AIStation的开发。”浪潮信息AI架构师OWEN ZHU博士说。
2019年,AIStation正式发布,将客户的AI算力管理从“人拉肩扛”升级为智能调度。那几年,浪潮信息与头部计算机视觉企业紧密合作,持续打磨该平台,最终覆盖金融、政府、互联网等400多家客户,成为软硬一体解决方案的一大支点。
2024年,AIStation V5发布
解决方案的核心是“懂客户”,这让浪潮信息对各行业需求的渗透不断加深。“与客户协同,最好的方法就是自己有算法团队。”浪潮信息AI架构师OWEN ZHU博士说。
进入大模型时代,这种软硬协同能力也释放出更大势能。
当谷歌发布Transformer模型BERT、OpenAI推出GPT3后,国内领先科技企业紧随其后,开始布局大模型。这些模型的规模比视觉模型大一个或几个数量级,浪潮信息团队也随之摸索大模型的机理,攻坚更大规模算力的Infra系统。
2021年,浪潮信息推出“源1.0”大模型,成功验证了GPT3级别的Infra。“源1.0”参数量达2457亿,需占用数TB的GPU显存,部署在2000多张GPU组成的千卡集群上,团队在算法、分布式计算、大规模集群层面完成了协同设计和优化。
彼时国内千卡集群尚属罕见,团队编写了千亿参数大模型Infra白皮书。而当时互联网上几乎也没有清洗好的数据集,浪潮信息开源了自己清洗的数据集,为日后国内近一半大模型企业提供了关键资源。这些实践成为后续服务客户的技术底座。
同年,浪潮信息在全球权威的MLPerf™评测中,拿下44项冠军成绩,位列榜首。这项由全球巨头共建的测试体系,评估的是AI Infra在真实任务下的性能表现,这些任务包括图像识别、自然语言理解、智能推荐等热门应用。在硬件趋同的情况下,胜负取决于算法理解深度与系统调优能力。这些成绩也正是团队服务客户中解决实际问题、积累实战经验的结果。
2023年,ChatGPT引爆大模型竞赛,浪潮信息迎来大模型Infra需求潮。让OWEN ZHU印象深刻的是,客户决策果断。一家互联网招聘企业老板拍板入局大模型,但也给企业团队带来挑战,算力集群从数十卡一下跳跃到千卡。如何构建、管理和运营这样的集群?他们找到浪潮信息。在与客户密切互动中,浪潮信息不断刷新“Infra平台指南”,为业界企业构建、部署和管理大规模AI集群提供一线支持。
浪潮信息一边为客户提供AI Infra系统,一边重新训练“源2.0”。当年年底,“源2.0”发布,变成了一个“文理兼修”的大模型,并全面开源,逐步应用于智能客服、投标助手、编程助手等多个场景。
同时,在全球开始了大算力、大数据的军备比拼中,团队将目光投向高效Scaling方向,在2024推出基于MoE架构的“源2.0-M32”,这与Deepseek的模型架构一致。团队引入全新Attention Router门控机制后,进一步提升算力应用效率。
十多年的软硬协同,从融合架构、GPU并行基础软件,到资源管理调度平台,大模型系统Infra,这些积累的经验能力如今聚力于超节点系统的快速落地。
03
开放架构,拉动产业
这次超节点,浪潮信息选择在开放计算技术大会上发布,并明确表示架构将全面开放给产业链。“我们要拉动整个产业链往里做投入。”赵帅说,统一的开放架构带来的不仅是技术共享,更是成本的降低与效率的跃升。预估规模效应可将制造成本降至原先的五分之一甚至二十分之一,同时让生态各方都能获益。
数智前线获悉,浪潮信息正与上游厂商、客户协同制定硬件、互联、管理等标准,延续其在OAM等国际标准上的推动经验。依托内部元器件测试实验室的企业级标准,以高于行业标准的严苛测试,将合格产品纳入开放生态。“我们的开放战略立足全球,旨在推动IT产业链的创新融合与协同发展”赵帅说。
开源开放理念一直贯穿浪潮信息技术体系。2021年“源1.0”发布后两个月,公司即上线开源平台,开放中文数据集、训练代码等资源,“让强大的技术成为普惠能力,而不是少数人的特权”。
浪潮信息内部也在研发多种路线的超节点架构。当前元脑SD200采用电互联与风冷等成熟技术实现快速商用,未来面向更高密度部署时,将推进高压直流供电、液冷散热等方案,并将架构从Rack as a Computer提升到Data Center as a Computer。
“不是围绕一个节点做产品,而是围绕整个数据中心做系统架构。”赵帅强调,开放架构与软硬协同将成为构建下一代算力底座的关键。
来源:数智前线