大模型进入万亿参数时代,超节点是唯一“解”么?丨ToB产业观察

B站影视 电影资讯 2025-08-08 17:44 2

摘要:模型发展的两极化趋势已经愈发明显,一方面,在企业级应用侧,小参数模型成为应用落地的最佳选择;另一方面,通用大模型的参数正在不断攀升,大模型已经进入了万亿参数时代。

模型发展的两极化趋势已经愈发明显,一方面,在企业级应用侧,小参数模型成为应用落地的最佳选择;另一方面,通用大模型的参数正在不断攀升,大模型已经进入了万亿参数时代。

当前,MoE (Mixture of Experts)高效模型架构正在驱动大模型参数规模持续提升,比如采用 MoE混合专家架构的KIMI K2开源模型,其总参数量达1.2万亿,但每个Token 推理时仅激活32B参数。

算力系统面临挑战

随着模型参数的不断增加,万亿参数模型时代已经到来,无论是KIMI K2,还是GPT、Grok,参数量都已经发展到万亿阶段,而万亿参数的模型也对算力系统架构提出新的挑战。

首先要面临的就是庞大算力需求。万亿参数模型的训练需要极高的算力支撑。以GPT-3为例,其1750亿参数的训练量相当于在2.5万张A100 GPU上运行90-100天。万亿参数模型的算力需求可能达到数十倍,传统计算架构难以满足。

同时,模型并行和数据并行的分布式训练虽能分摊计算压力,但跨节点的通信开销(如梯度同步)会显著降低算力利用率。例如,GPT-4训练的算力利用率(MFU)仅为32%-36%,主要受限于显存带宽导致的“内存墙”问题。

此外,超大规模MoE模型的训练稳定性也是不小的挑战。参数规模和数据体量的激增会导致梯度范数频繁突刺,影响收敛效率。同时,模型参数量的增加以及序列长度的增加将会带来KV cache(键值缓存,Transformer架构大模型在推理过程中常用的一种优化技术),数量的激增,尤其是序列长度的增加可能会带来指数级的KV cache存储空间的需求。

以FP16格式计算,万亿参数模型仅权重就需约20TB显存,加上KV cache、激活值等动态数据,实际内存需求可能超过50TB。例如,GPT-3的1750亿参数需350GB显存,而万亿参数模型可能需要2.3TB,远超单卡显存容量(如H100的120GB)。此外,长序列(如2000K Tokens)的训练会使计算复杂度呈平方级增长,进一步加剧内存压力。这些需求远超过了传统AI服务器的显存能力极限,亟需构建具有更大显存空间的计算系统承载,才能解决模型“放得下”的问题。

此外,MoE架构的路由机制容易导致专家负载不均衡,部分专家因过度使用成为计算瓶颈,而其他专家则训练不足。具体来看,传统局部负载均衡损失(Micro-batch LBL)会阻碍专家领域特化,因为单个Micro-batch的数据分布往往单一。

对此,阿里云提出了全局负载均衡损失(Global-batch LBL),通过跨Micro-batch同步专家激活频率,在保障全局均衡的同时允许局部波动,显著提升了模型性能(平均PPL降低 1.5 个点)。

此外,当大模型技术方向逐渐从训练转向推理场景,清程极智CEO汤雄超在WAIC 2025期间曾向笔者表示,AI技术的主要方向,已经从预训练转向了后训练及推理阶段,“算力需求也正在从训练侧,转向推理侧。”汤雄超指出。

大模型推理属于敏感型计算,对分布式计算通信延时要求很高,以MoE架构模型为例,其分布式训练涉及大量跨设备通信,如Token分发与结果聚合,通信时间占比可高达40%。浪潮信息副总经理赵帅表示,在此背景下,企业需要构建更大Scale Up高速互连域。

总体来看,赵帅告诉笔者,万亿模型对算力系统也提出了很大挑战,“企业需要具有更大显存空间、更大高速互连域、更高算力的超节点系统支持。”赵帅指出。

构建大规模Scale Up系统或是最优解

面对算力需求的增加,以及新需求所带来的挑战,传统Scale Out 集群通过增加节点数量扩展算力,但节点间通信瓶颈(如InfiniBand 的10微秒时延)在万亿参数模型训练中被无限放大。单节点已经不能满足超大规模参数模型的训练需求,Scale Up系统通过超节点技术,将数百颗AI芯片封装为统一计算实体,实现跨节点通信性能接近节点内水平。

从大模型应用角度出发,面对单点算力/显存的天花板,构建大规模Scale Up 系统,通过并行计算技术(如专家并行、张量并行)将模型权重与KV Cache拆分到多个AI芯片上协同工作,在赵帅看来,这种路径是解决万亿参数模型计算挑战的唯一可行路径。“我们需要构建大规模、高集成度的Scale Up系统,通过紧密耦合大量的AI芯片形成单一高速互连域,才能汇聚起超大显存池以承载模型,并通过优化互连拓扑与协议实现芯片间超低延迟、高带宽通信,从而满足万亿模型推理‘放得下、算得快’的要求。”赵帅指出。

通过Scale Up系统的方式,已经成为未来万亿参数模型的必然趋势,对于万亿大模型推理,不仅需要构建更大的显存空间,还需要实现卡间超低延迟的互连,构建更大的scale up高速互连域。

除了构建庞大的系统之外,多芯片协同也是目前企业较为常用的一种方式,将多枚芯片封装到一个计算带上,缩短芯片间的距离,以实现更高的性能。

针对此,服务器厂商也在寻找新的技术方向,以满足客户在超大规模参数模型训推方面的需求。以浪潮信息为例,在近日举办的2025开放计算技术大会上,浪潮信息就发布了面向万亿参数大模型的超节点AI服务器“元脑SD200”。赵帅向笔者介绍道,该产品基于浪潮信息创新研发的多主机低延迟内存语义通信架构,以开放系统设计聚合64路本土GPU芯片。

具体来看,此次发布的元脑SD200在可单机运行1.2万亿参数Kimi K2模型的同时,还支持DeepSeek、Qwen、GLM等模型同时运行,并支持多Agent协同按需调用。“构建具有更大显存空间、更大scale up高速互连域,以及更高算力的超节点系统,应对万亿模型的算力挑战。”赵帅与笔者分享了浪潮信息推出元脑SD200的“初心”。

从系统开放协同角度出发,元脑SD200基于全局路由自动构建技术,得以实现64卡P2P全互连与业务感知的拓补动态切换,并配合多层级通信机制,降低了All Reduce/All Gather 时延。

与此同时,依托开放PD分离框架,支持异步KV Cache高效传输与差异化并行策略,在提升业务SLO的同时保持对多元算力的兼容性,实现计算与通信架构的深度协同优化。

从架构创新角度出发,元脑SD200采用了多主机3D Mesh系统架构,基于Open Fabric Switch实现64路GPU高速互连。面对为何选择创新性的3D Mesh系统架构的提问,赵帅表示,3D Mesh系统架构能够让服务器拥有一个更大的、统一地址的显存空间,“通过3D Mesh系统架构,将原先单机8卡全互连拓展到了多机,跨域互连。”赵帅指出。

从应用角度出发,随着推理场景的不断发展,对低延迟的要求也越来越高,这也导致了Scale Up会成为接下来技术重点发展的方向,“Scale Out技术已经相对成熟,同时,在推理场景中,Scale Up是首先需要解决的问题,这也让Scale Up成为未来大模型技术发展重点探索的领域,”赵帅进一步指出,“但这也并不意味着Scale Out就不适用了,Scale Up与Scale Out会保持同步前行的状态。”

软硬协同是关键

Scale Up的发展除了硬件架构的变革之外,也离不开软件系统的搭建,只有做好软硬协同,才能激发芯片更大的潜能,提升算力利用率。

当前,软硬协同是解决万亿参数大模型算力瓶颈的核心路径,其本质是通过软件层深度适配硬件特性、硬件层针对性支撑软件需求,实现“1+1>2”的效率跃升。

硬件能力的释放需软件层深度适配,比如,字节跳动 COMET 技术通过动态 KV 缓存重组,将MoE模型的通信延迟从0.944秒降至 0.053 秒,使超节点硬件利用率突破 90%。若缺乏软件优化,即使硬件带宽提升 10 倍,实际通信效率可能仅提升 2-3 倍。

基于此,赵帅表示,通过多年,历经从实验室到应用,再到用户POC的过程,浪潮信息发现,软件在超节点复杂的系统中,发挥着重要的作用,“当scale up链路复杂程度逐渐升高之后,就更需要对其进行更为细致的监控和管理,”赵帅进一步指出,“这种监控和管理与之前单机内的监控管理相比,复杂度更高,同时还需要在上层实现匹配创新系统架构的应用框架。”

以此次浪潮信息发布的元脑SD200为例,其中就针对3D Mesh系统架构开发了一套PD分离框架,但受限于PD分离技术定制化程度高、开源方案经验少等特点,赵帅表示,在整体开发过程中,还是经历了很长的POC环节,才将软硬协同做到最优。

除此之外,数据中心就像一枚硬币,一面是要面对日益增加的单机柜功率,另一面是要有序推进碳中和进程,如何平衡好硬币的两面,也是当前企业需要考虑的因素。尤其是使用超节点,其功耗密度已达兆瓦级(如万卡集群功耗 > 10MW),软硬协同是破局关键,若软件未适配硬件的动态功耗调节,可能导致芯片长期处于高功耗状态,甚至引发过热降频。

万亿参数大模型的爆发式增长,正推动算力系统进入从“量变”到“质变”的关键转折期。庞大的参数规模、激增的显存需求、复杂的通信开销,以及MoE架构带来的负载均衡与训练稳定性挑战,共同指向一个核心命题:传统算力架构已难以承载智能进化的新需求。在此背景下,硬件架构的创新需要软件层的精准适配,从动态KV cache重组到全局负载均衡策略,从通信协议优化到功耗智能调控,软件系统正在成为释放硬件潜能的“钥匙”。唯有让硬件特性与软件需求形成闭环,才能真正突破“内存墙”、“通信墙”的桎梏,将超节点的算力优势转化为大模型落地的实际效能。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)

来源:钛媒体APP一点号

相关推荐