核心主题:随着AI大模型规模急剧扩大(如从千亿参数到万亿参数),传统算力架构无法满足高带宽、低时延、持续数据供给的需求,计算基础设施需转向超节点架构。超节点的演进与技术特征。AI算力需求空间与趋势。国产芯片在超节点布局的进展。摘要:核心主题:随着AI大模型规模急剧扩大(如从千亿参数到万亿参数),传统算力架构无法满足高带宽、低时延、持续数据供给的需求,计算基础设施需转向超节点架构。
超节点是一种结合硬件互联和软硬件协同的架构,通过纵向扩展(Scale-up)方式提升性能:
基础特征:超高带宽互联:采用高效互联协议(如华为UB、英伟达NVLink),实现处理器间大流量数据传输。例如,华为Atlas 950带宽达16PB/s,是现有互联网峰值带宽的10倍以上。内存统一编址:全局内存地址唯一化,消除序列化-网络传输瓶颈,提升参数同步效率(如大模型训练中的小包数据传输)。未来优化方向:资源池化:抽象化为统一逻辑资源池(如内存、存储),实现动态调度(如KV Cache池化解锁长上下文处理)。资源灵活配比:基于任务特征(计算/访存密集型),自动调整CPU、NPU、内存等资源比例,支持多任务逻辑切分。产业演进:从传统Scale-out架构(以太网互联)转向Scale-up超节点架构,满足万亿参数模型需求。国产品牌加速突破,引领AI基础设施创新:
华为:Atals 900超节点(2025年3月):满配384颗Ascend 910C芯片,全球已部署超300套。Atlas 950/960超节点(2025年9月发布):950支持8192颗Ascend 950DT,算力8EFLOPS FP8,内存1152TB;960支持15488颗芯片,算力30EFLOPS FP8,性能提升显著。集群产品:Atlas 950 SuperCluster(50万卡)算力524EFLOPS FP8,Atlas 960 SuperCluster(百万卡)算力2ZFLOPS FP8。开放“灵衢2.0”互联协议,支持万卡级架构。发布全球首个通用计算超节点TaiShan 950。中科曙光:发布AI超集群系统(2025年9月),基于开放架构支持多品牌AI卡和CUDA生态,降低成本和适配难度。浪潮信息:“元脑SD200”超节点服务器(2025年8月),首创三维网格架构,支持64路GPU高速互联,显存统一寻址空间达4TB。本报告系统阐述了AI算力需求向超节点架构的转型,超节点通过高带宽互联、统一编址和资源池化解决了传统架构瓶颈。全球AI资本支出预期达数万亿美元,推理需求和主权AI成为增长亮点。国产芯片厂商(华为、中科曙光、浪潮信息等)在超节点产品上取得突破,技术领先性支撑行业“推荐”评级。
来源:禾略研究院