摘要:随着大模型技术的持续演进,人工智能的发展正在经历一次深刻的范式迁移。具体表现在,AI不再满足于执行简单的生成任务,而是开始迈向具备推理和自主决策能力的智能体(Agentic AI)时代。而智能体作为下一代AI应用的核心形态,预示着人工智能将从“快思考”的实验性
随着大模型技术的持续演进,人工智能的发展正在经历一次深刻的范式迁移。具体表现在,AI不再满足于执行简单的生成任务,而是开始迈向具备推理和自主决策能力的智能体(Agentic AI)时代。而智能体作为下一代AI应用的核心形态,预示着人工智能将从“快思考”的实验性工具,转变为深度嵌入商业流程、具备可衡量价值的核心生产力。正如日前举行的2025人工智能计算大会(AICC 2025)所揭示的主题,产业界已将焦点投向如何筑牢“人工智能+”高质量发展底座。
智能体大势所趋,商业化落地面临速度、成本等瓶颈
智能体AI的兴起并非偶然,而是AI发展逻辑的必然延伸。传统AI多局限于被动响应,如聊天机器人或图像识别,而智能体则具备自主规划、工具调用和多步推理能力,能够在复杂环境中执行任务,其独特价值在于“机-机交互”,即不同智能体之间的高频协作。而这得益于大模型的Scaling Law从预训练向推理阶段的迁移,模型参数量已达万亿级,支持“慢思考”式的链式推理(Chain-of-Thought),从而可以处理更贴近人类决策的场景。
根据麦肯锡《Empowering advanced industries with agentic AI》的分析,2025年,智能体将驱动企业决策自动化,预计到2030年,其在全球AI市场占比将超30%。而在中国,这一趋势尤为明显,特别是以DeepSeek为代表的开源模型极大的降低了创新门槛,加速智能体产业化的到来。
然而,趋势背后是现实挑战。智能体并非实验室里的演示性产品,而是需要真正嵌入业务流程的核心生产力。Gartner预测,到2027年底,超过40%的智能体项目将被迫中止,主要原因是成本失控、价值不明和风险难控等。
例如在金融风控领域,银行部署的智能体可实时检测交易异常,若响应时间能控制在几十毫秒内,就可能在资金被转移前锁定风险账户;在医疗场景中,多个智能体协作完成病历解析、影像识别与诊断推荐,效率提升意味着患者可在就诊当场得到智能辅助诊断;在电力系统中,调度智能体必须在毫秒级完成负荷预测与电网切换,否则可能影响电力安全。这些场景无一例外要求极低延迟和高可靠性。
由此可见,智能体若真正进入上述类似的关键行业,能力、速度和成本将是目前最大的瓶颈。
以能力为例,在后训练阶段更多的算力投入,能显著提升模型的推理能力,而以推理能力为代表的复杂思维的涌现,是构建智能体应用的基础。
至于速度,则是智能体实现商业价值的首要制约因素。不同于“人-机交互”的低频对话,智能体时代的核心是“智能体-智能体”的高频协作,毫秒级响应已成为刚需。
但事实是,全球典型的大模型API服务商的每Token生成速度,基本维持在10-20毫秒,而国内厂商的生成速度普遍高于30毫秒。不仅如此,延迟累加效应更甚,尤其在多智能体网络中,每个环节的毫秒级延迟将指数级放大整体响应时间,进而摧毁用户的体验和商业竞争力。
最后是成本,尤其是单Token成本,是影响智能体能否实现规模化落地的最关键经济因素。
众所周知,随着智能体在企业级应用中的深度普及,Token消耗量已出现爆炸式增长,平均每月Token消耗相比一年前增加约50倍,达到千万到亿级规模;单个智能体每月的Token成本动辄上千美元,而未来五年Token消耗量或呈现指数级增长,若推理成本不下降,智能体规模化部署将难以维系。
正如浪潮信息首席AI战略官刘军所强调:“到了智能体时代,每个智能体不像人一样接收速度有限,延迟问题会变得越来越突出,所以智能体商业化就是‘快杀慢’,如果延迟不够低,商业应用和竞争几乎无从谈起;反之,速度越快,商业场景就越丰富”。
技术创新破局 从模型转至AI计算架构系统性优化
正是基于上述挑战,产业界的破局之道正在从模型层优化转向AI计算架构的系统性创新。
从全球看,科技巨头们都在沿着相似的路径探索。例如,英伟达通过其Blackwell架构和第五代NVLink技术,持续优化多GPU间的通信效率,旨在降低大模型推理的延迟;而谷歌、AWS等云服务商则通过自研的TPU、Inferentia等专用AI芯片,从硬件层面为推理任务提供更高性价比的算力解决方案。这些均证明,通用算力的“蛮力”时代正在过去,精细化、专用化的架构设计成为破局关键。
具体到国内,以浪潮信息为代表的厂商则走在了前列。例如其发布的元脑SD200超节点AI服务器(以下简称元脑SD200)率先将国内大模型的Token生成速度压缩到8.9毫秒,进入“10毫秒时代”。而这一成绩得益于其多主机低延迟内存语义通信架构与极简协议栈的设计。简而言之,它通过64路本土AI芯片的高速互连,配合仅三层的协议栈,避免冗余拷贝,将基础通信延迟降到百纳秒级。
对此,刘军形象地将其比作高速公路:“智能体之间的交互往往是小数据包,关键不在高速路有多宽,而在上高速和下高速是否顺畅,浪潮信息的做法就是让数据直通上下高速,把延迟压到极致。”具体到元脑SD200,则是通过对通信架构的创新,打破了硬件堆砌带来的性能上限,从系统层面为智能体的高频、高并发交互提供了“高速公路”。
相关实测显示,该架构在DeepSeek R1 671B模型下,可实现16.3倍超线性扩展率,支持单机4万亿参数模型或多智能体协作,适用于具身智能的实时任务。
在《班门弄斧》看来,这一速度突破的意义在于,让许多原本智能体不可行的场景成为可能。比如在证券市场,智能体可在毫秒内完成多维度数据分析并触发风控指令;在制造流水线上,智能体能实时监测传感器数据并反馈给机器人,毫秒级响应可避免工序误差带来的巨大损失。而AICC 2025上不少专家也都提到,低延迟不仅是用户体验问题,更是产业落地的底层要求。
如果说元脑SD200突破了速度瓶颈,那么浪潮信息的另一款元脑HC1000超扩展AI服务器(以下简称元脑HC1000)则直指成本难题,且实现了每百万Token成本首次击破1元人民币。
究其原因,关键在于其采用了全对称DirectCom架构,通过极简化和拆解式设计,让计算与通信充分解耦,并实现了大规模无损扩展。具体来说,它通过16卡模组的创新,将单卡成本压缩60%以上,并在算网协同下,让单卡利用率最高提升5.7倍。
对此,刘军进一步解释了技术聚焦的关键点,例如聚焦解码端效率,即成本测算重点关注解码阶段,因为大家都知道解码会比预填充阶段实际上要贵很多,而元脑HC1000的架构正是针对这一高负载特性进行优化,确保在关键的Token生成环节达到最高效率,而这对于内容生成、在线教育等高并发消费场景意义重大。
从《班门弄斧》的角度,上述浪潮信息两款产品背后的技术路径,无疑展现了行业在技术层面应对智能体挑战的思路,即通过专用化、系统化的计算架构创新,实现速度与成本的同步优化,将智能体的商业价值从理论推向实际可盈利的规模化部署,由此,AI的未来也不会是一刀切的通用算力架构,而是因行业而异的精细化、场景化设计。
需要说明的是,上述这种思路,与AICC 2025上提出的“应用牵引”理念可谓不谋而合,得到了业内的广泛认可。
惟AI计算架构创新共识,方能加速智能体商业化
展望未来,智能体商业化落地的突破口在于AI计算架构的创新共识,并对AI计算基础设施提出了前所未有的要求。
当前,GPGPU主导的通用架构面临多重挑战,具体表现在系统扩展逼近工程极限(百万亿参数需求指数增长)、电力基础设施压力(GW级智算中心耗电堪比小国)、投入产出失衡(商业兑现不如预期)。正如IBM在最新报告《AI Agents in 2025: Expectations vs. Reality》所言,2025年智能体虽然是主导叙事,但要真正实现价值,必须依赖架构层面的革新。
为此,刘军在采访中坦言:“依赖当前的通用架构,根本跟不上Token需求的海量增长,未来一定会走向专用化和算法硬件化。”
这种趋势在AICC 2025的多个议题上均得到了呼应。例如清微智能联合多方成立“可重构算力软硬件协同创新中心”,探索更契合推理需求的专用架构;智源研究院推动的FlagOS,则试图打破芯片和算力的碎片化壁垒,为产业提供统一的软件底座。
而具体到专用化和算法硬件化,业内知道,GPU最初为图形渲染设计,如今被“挪用”到AI计算,已经暴露出能效与成本上的局限,通用矩阵计算芯片同样如此。而随着智能体推理进入高频交互,算力需求的集中化和爆炸式增长,产业必须从通用转向专用。这意味着,未来的AI芯片和系统架构将针对大模型推理的核心算子进行硬件化和电路级优化,就像分子动力学领域的专用芯片Anton那样,实现数量级的性能提升。
不过需要注意的是,向专用化架构的转型也伴随着新的挑战。例如业界需要警惕过度“碎片化”带来的生态壁垒,避免不同技术路线之间难以兼容,增加开发和迁移成本。此外,如何在专用硬件的高效率与通用GPU(如英伟达CUDA)的广泛生态和灵活性之间取得平衡,将是未来所有厂商需要共同面对的课题。
与此同时,生态协同不可或缺,最典型的例子就是上述浪潮信息的路径和产品,其速度和成本的突破并非单一厂商独立完成,而是产业链上下游共同创新的结果。“我们能做到8.9毫秒的速度,是芯片伙伴、软件伙伴和研究机构等共同努力的成果。”刘军在采访中强调。所以,智能体的未来,决定于产业链上下游是否能形成更紧密的合作。
更关键的是,产业必须从“规模导向”转向“效率导向”。Scaling Law曾推动模型能力快速进化,但当参数量膨胀至万亿级,算力、电力与成本矛盾已不可回避。所以未来的核心不是一味追求算力规模,而是如何在同样的能耗与算力条件下输出更多Token,以支撑更复杂、更实时的智能体应用。
写在最后:未来已来,智能体是人工智能发展的必然趋势,它将重塑商业流程和生产模式,但产业化落地仍然面临能力、速度和成本等的挑战也是不争的事实。
可喜的是,AICC 2025展示了产业链上下游在政策、技术、生态上的共同努力。从《北京方案》到FlagOS,从算力补贴政策到可重构创新中心,业界正在为智能体的落地提供保障。而浪潮信息的元脑SD200与HC1000,以8.9毫秒的生成速度和低于1元的每百万Token成本更是给出了可供借鉴的技术路径,证明了AI计算架构必须因场景而异,走向专用化、协同化与效率导向,才能让智能体真正融入金融、医疗、能源、教育、制造等千行百业,成为推动新质生产力的核心引擎。
来源:孙永杰的ICT评论