摘要:近几年,人工智能大模型与数据密集型应用的快速发展,使算力的供需矛盾愈发尖锐。数据中心的建设似乎永远在追赶新的需求:更多的服务器、更大的带宽、更高的并发。但问题在于,单纯依靠不断堆叠服务器,已难以支撑低时延、高可靠和高利用率的要求。
文/黄海峰的通信生活
近几年,人工智能大模型与数据密集型应用的快速发展,使算力的供需矛盾愈发尖锐。数据中心的建设似乎永远在追赶新的需求:更多的服务器、更大的带宽、更高的并发。但问题在于,单纯依靠不断堆叠服务器,已难以支撑低时延、高可靠和高利用率的要求。
行业迫切需要一条新路径,从硬件堆砌走向系统级协同。基于这一背景,华为全联接大会2025上正式发布了业界首个通算超节点TaiShan 950 SuperPoD,该产品基于华为自研的“灵衢”互联协议构建。同时,基础软件openEuler、openGauss、openFuyao和毕昇编译器也宣布全面支持灵衢协议,构成一套完整的“硬件+互联+软件”协同解决方案,旨在探索通算性能提升新路径。
对于该产品的定位与价值,华为副总裁、ICT产品组合管理与解决方案部总裁马海旭在会上的发言颇具代表性,他强调:“TaiShan 950 SuperPoD不仅是华为在硬件领域的关键突破,更是推动计算产业迈向资源高效利用、架构灵活演进的创新发展新阶段的重要力量。”
这两天,行业内都在讨论:这套“硬件+互联+软件”的全新组合,将如何打破传统算力体系的瓶颈?在追求性能突破的同时,它又能否避免封闭生态带来的产业依赖,真正实现算力价值的普惠?这两个问题,或许正是解开新算力范式核心价值的关键。
为何要重构算力体系?
过去十余年,数据中心的建设模式几乎遵循固定路径:以CPU为核心,纵向追求单核性能提升,横向依赖节点堆叠扩展。这种模式在早期能够满足企业业务需求,但随着应用规模的指数级增长,瓶颈逐渐暴露出来。
其一,资源碎片化,闲置问题突出且效率触顶。据《中国数据中心产业发展白皮书(2023)》统计,全国数据中心存量机架规模庞大,但未来三年存量节能改造投资预计将超过340亿元。这一数据说明,很多已有的数据中心运维效率低、能耗偏高,存在大量闲置或低效资源。
其二,协同效率低,难以匹配多场景业务诉求。从核心业务场景来看,数据库、虚拟化、大数据、搜推等通用计算场景,对节点间的协同效率要求正持续提升,这类场景需要多服务器联动处理数据流转、任务调度与资源共享,而传统架构下节点间通信壁垒高、资源调度割裂,导致业务处理效率受限。
其三,数据中心的资源利用率现状亟待改善。多数数据中心通用业务的处理器平均占用率不足40%,即便是互联网行业中利用率表现较好的场景,也仅能达到50%左右,大量算力资源处于闲置或低效运行状态,进一步加剧了算力供给紧张与资源浪费的矛盾。
这些瓶颈不仅让传统算力体系难以跟上数字经济的发展步伐,更倒逼行业跳出单点优化的惯性思维,去探索能实现硬件、互联与软件深度协同的全新解决方案。而华为TaiShan 950 SuperPoD及灵衢互联协议的推出,正是对这一行业诉求的精准回应。
鲲鹏全栈联动,解锁算力新范式
传统服务器集群升级,常陷入“头痛医头、脚痛医脚”的困局——CPU性能不足就换CPU,带宽不够就加带宽,却始终难以根治系统性瓶颈。而TaiShan 950 SuperPoD的出现,带来了全栈联动的全新突破,华为鲲鹏计算业务总裁李义对其进行了深入阐释。
首先,“灵衢”互联协议,是超节点的“神经中枢”,它打破传统服务器节点间的连接壁垒,实现高效且灵活的节点互联,为算力基础设施升级提供关键支撑。值得一提的是,在华为全联接大会2025上,华为副董事长、轮值董事长徐直军宣布开放灵衢2.0技术规范。这意味着鲲鹏将助力伙伴在各自系统与解决方案中运用该能力,推动整个产业在算力互联技术上共同进步,避免技术孤岛,促进产业协同发展。
其次,基于“灵衢”协议,TaiShan 950 SuperPoD这款通用计算超节点产品应运而生,为用户带来诸多便利。该产品采用鲲鹏最新一代服务器,具有超低时延和超大带宽特点,同时,它还支持统一编址,极大降低跨节点访问的复杂性,让数据在节点间流转更顺畅高效。在部署时,它仅需一根线缆加一块级联卡,就能在现有风冷机房快速构建超节点,显著降低企业对现有基础设施的改造成本,助力用户以更低成本、更高效的方式完成算力升级。
再次,硬件能力的充分发挥,离不开软件生态的支持,鲲鹏基础软件已全面完成对“灵衢”协议的深度适配。openEuler操作系统凭借异构融合与设备池化能力,为应用提供灵活的资源调度;openGauss数据库在“灵衢”协议支撑下,实现多写架构与全局BufferPool,提升了数据库的扩展性和事务处理效率;openFuyao能让“灵衢”设备极简接入Kubernetes集群,降低云原生场景的应用门槛;毕昇编译器也针对“灵衢”协议特性优化,提升编译与运行性能。
最后,在“硬件+灵衢+软件”的协同作用下,实测性能提升显著。从应用端看,鲲鹏通算超节点已在多个场景展现明显收益:Spark综合性能提升约30%,数据库借助全局BufferPool实现多主写入标杆数据库GaussDB性能提升190%,搜推广在线推荐系统端到端时延下降40%。对企业而言,这些指标的改善,不仅是性能的提升,更关乎业务连续性的增强与用户体验的优化。
笔者观察:算力释放新范式离不开产业协同
算力正成为数字经济的核心生产力。如何更高效、更低成本地释放算力,不仅是技术问题,更是产业问题。TaiShan 950 SuperPoD的发布,提供了一种新思路:不再紧盯单一硬件指标,而是通过“硬件+互联+软件”的全栈组合,实现系统级突破。
独行快,众行远。这一突破也与鲲鹏长期秉持的开放共赢的生态策略相契合。众所周知,鲲鹏始终坚持硬件开放、软件开源,在新的算力体系构建中,鲲鹏致力于打造共赢格局,避免技术孤岛,让技术创新能在更广阔的产业协同中发挥价值,这才是长久发展之计。
在笔者看来,本次TaiShan 950 SuperPoD的发布,至少有两点值得关注。
第一,系统协同而非硬件堆叠。长期以来,算力提升多依赖单一硬件升级,比如一味提高CPU主频、盲目增强存储性能,把硬件能力简单做加法。但随着摩尔定律放缓,单纯的硬件堆叠已难以为继。TaiShan 950 SuperPoD则跳出硬件堆叠的思维,将带宽、时延、内存三大核心问题前置到系统层面统筹解决,让CPU、存储等各类硬件不再是各自为战的单兵,而是在系统架构的牵引下,像精密配合的军团一样协同起来,共同为释放更强算力而战。
第二,开放生态优先于一家独大。华为“硬件开放、软件开源、使能伙伴”的表态,既是对合作伙伴的承诺,也是对行业发展的判断。若没有开放生态,单点技术突破很难转化为广泛应用。华为选择使能而非独占,这正是其在计算产业中最具战略意义的动作。
未来几年,我们会看到越来越多企业在超节点架构上试水数据库、大数据与AI应用,也会看到更多合作伙伴基于“灵衢”协议与开源软件生态,构建自身的产品与服务。笔者相信,鲲鹏定能携手合作伙伴,推动计算产业从堆叠走向协同。
来源:黄海峰
