摘要:今年的人工智能计算大会上,浪潮信息发布了超扩展AI服务器元脑HC1000,把AI推理成本狠狠地打了下来。
克雷西 henry 发自 凹非寺
一百万Token的输出推理成本,只要一块钱了。
今年的人工智能计算大会上,浪潮信息发布了超扩展AI服务器元脑HC1000,把AI推理成本狠狠地打了下来。
与此同时,浪潮信息还推出另一杀手锏——元脑SD200超节点,也将DeepSeek-R1的Token生成时间打到了毫秒量级。
浪潮信息首席AI战略官刘军
随着AI竞赛进入智能体产业化阶段,能力、速度和成本成为了决胜的核心三要素。
浪潮信息打出的这套组合拳,针对的就是其中涉及到AI Infra的两项关键指标——速度与成本。
元脑SD200和元脑HC1000,将为多智能体协同与复杂任务推理的规模化落地,提供高速度、低成本的算力基础设施。
首先来看元脑SD200超节点AI服务器。
它可以在单机内同时运行DeepSeek-R1、Kimi K2等四大国产开源模型,支持超万亿参数大模型推理以及多智能体实时协作,还支持同时运行64个AlphaFold3蛋白质预测模型。
特别是在速度上,元脑SD200率先将大模型端到端推理延迟控制在了10ms以内。
实测中,元脑SD200在运行DeepSeek-R1时,TPOT(每Token输出时间)仅有8.9ms,领先了前SOTA(15ms)近一倍,还使DeepSeek-R1 671B的推理性能实现了最高16.3倍的超线性扩展率。
并且元脑SD200并没有因为速度而牺牲系统的稳定性与可靠性,而是分别在系统硬件层、基础软件层和业务软件层等层面进行针对性设计和优化,保证整机运行高可靠设计,真正做到了“快而不乱”。
为什么元脑SD200如此强调“速度”?
因为速度已经成为智能体时代AI竞争的关键变量。
随着AI进入智能体时代,交互方式发生了巨大改变,过去大模型只需进行人机对话,但现在还需要智能体与智能体之间的交流,对模型的生成速度更加敏感。
特别是在实际应用场景中,智能体与智能体之间的交互轮次更多,延迟会随这一过程不断累积,导致整个系统运行速度无法被用户接受,在竞争中将成为致命缺陷。
除了用户的直观感受,造成商业场景对速度要求苛刻的原因还有许多。
比如在金融交易当中,对响应时效的要求极为苛刻,反欺诈算法需要在10毫秒的时间里识别风险交易,否则后果不堪设想。
因此,Token生成速度不仅影响用户体验,更直接关乎商业产出的稳定性与可靠性。
那么,制约Token生成速度提升的因素,又是什么呢?
问题主要出在了通信环节。
当参数规模快速突破万亿级别,模型必须拆分到几十甚至上百张卡上时,原本在单机内部的高速通信变成了跨机的网络传输,通信就成为了更严峻的挑战。
特别是在处理推理过程中大量的小数据包时,延迟问题变得极为突出,而且每一次跨机通信都可能带来额外延迟,当多个万亿级模型需要实时协作时,传统架构已经完全无法应对。
针对这些问题,元脑SD200先是在架构层面进行了革新。
具体来说,元脑SD200采用了创新的多主机3D Mesh系统架构,由自研的Open Fabric Switch贯通,将多个主机的GPU资源整合成一个统一的计算域,并且当中能够实现跨主机域全局统一编址。
这一架构让显存统一地址空间扩增8倍,可实现单机64路的Scale up纵向扩展,最大可以提供4TB显存和64TB内存,构建超大的KV缓存分级存储空间。
并且通过Smart Fabric Manager,元脑SD200实现了超节点64卡全局最优路由的自主创建,保障AI芯片间通信路径最短,进一步缩短基础通信延迟。
除了架构,在互联协议方面,为了实现极低的Latency通信,元脑SD200采用了极简的三层协议栈,无需网络/传输层,仅凭物理层、数据链路层和事务层三层即可实现GPU直接访问远端节点的显存或主存。
这种模式无需“发送-接收”式的消息语义拷贝,将基础通信的延迟打到了百纳秒级。
同时,为了实现稳定可靠通信,元脑SD200原生支持由硬件逻辑实现的链路层重传,可将重传延迟降低至微秒级;通过采用分布式、预防式流控机制,从根本上避免拥塞和丢包。
此外,元脑SD200还通过采用通信库优化、并行推理框架、PD分离策略及动态负载均衡等创新技术,充分发挥超节点的性能优势。
最终DeepSeek-R1 671B推理,从16卡扩展到64卡,实现了16.3倍超线性的扩展率。
除了元脑SD200,浪潮信息还带来了超扩展AI服务器元脑HC1000。
元脑HC1000不仅支持极大推理吞吐量,还能让单卡成本降低60%、均摊系统成本降低50%,将每百万Token输出成本降低至1元。
如果说速度是智能体应用的生命线,那么成本则决定了度过生存关的应用能否实现盈利。
在智能体时代,Token消耗量正在暴增,以辅助编程为例,每月消耗的Token数比一年前增长了50倍。
如果从经济角度考虑,企业每部署一个智能体,平均每个月消耗的Token成本将达到5000美元。
并且随着任务复杂度、使用频率等指标不断攀升,据浪潮信息预计,未来5年智能体应用带来的Token消耗将呈现出指数级增长。
Token数量只增不减,如果不把单个Token成本打下来,那么在高强度交互的智能体环境中,Token成本必定成为规模化部署的瓶颈。
那么,Token推理成本又为什么居高不下呢?
推理阶段算效(MFU)低是主要原因。
具体来说,在训练时,模型的FLOPs的利用率可能达到50%,但在推理阶段,这个数值可能低出一个数量级。
进一步的原因是推理的每个阶段的运算特点均不相同,与算力不能实现有效匹配。
元脑HC1000瞄准的出发点正在于此——
既然每个阶段有不同的运算特点,那就将推理的计算流程拆解,对模型结构进行解耦。
元脑HC1000不仅将推理过程的Prefill和Decode阶段分离,还将Decode阶段进一步分解成了注意力运算和FNN,从而提高资源利用效率。
解耦之后的另一个好处是,对于芯片的指标要求不再是“五边形战士”,可以针对性地做进一步成本削减,节约成本的同时还能降低功耗。
在硬件层面,元脑HC1000创新16卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。
据测算,元脑HC1000的推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍。
另外,元脑HC1000还采用全对称DirectCom极速架构,能够以超低延迟直达通信,保障计算、通信实现1:1均衡分配。
面向智能体AI时代,浪潮信息通过元脑SD200与元脑HC1000两大杀手锏,破解了智能体规模化落地中的速度与成本两大关键难题。
一方面,在智能体商业化过程中,Agent应用往往遵循“快杀慢”的规律——
面对海量选择,用户更倾向于选择输出速度更快、交付效率更高的工具;
另一方面,随着应用规模扩大、交互频次提升,行业关注的重点也从单纯算力转向总体拥有成本,尤其是直接影响商业可行性的单Token成本。
基于此,浪潮信息面向未来智能体的商业化场景,在速度与成本上率先突围,把“百万Token上下文”从高成本的技术演示,转化为可规模化运营的现实能力。
然而,AI算力的可持续发展依然面临三大挑战——系统规模接近工程极限、电力基础设施压力巨大,以及算力投入与产出不平衡。
在此背后,是GPGPU主导的通用计算架构的局限性正在逐渐显现。
因此,有必要转变思维,思考新的路径,从规模导向转为效率导向,重新规划和设计AI计算架构,发展AI专用计算系统。
浪潮信息首席AI战略官刘军指出:
通用架构效率低,但适应性强,易于产业化推广;专用架构效率高,但应用面窄,不利于普及推广。计算产业发展的历程,就是一个专用与通用对立统一、交替发展的过程。
这意味着,以GPGPU等主导的通用AI计算架构正在面临多重挑战,正在向细分化、专业化的应用阶段加速转型。
顺应这一趋势,浪潮信息通过软硬件协同设计与深度优化,面向具体应用,探索AI下半场的算力新路径。
目前,浪潮信息已经交出了元脑SD200和元脑HC1000这样的答卷。
未来,其将进一步针对核心算法算子进行硬件化、电路化设计,实现性能的数量级提升,从而有效应对未来Token规模持续增长所带来的巨大计算需求,为智能体时代的高效落地提供可持续、可扩展的基础设施保障。
— 完 —
来源:量子位一点号