华为算力“公共事业”:“超节点+全栈开源”如何撬动AI未来?

B站影视 欧美电影 2025-09-27 10:32 1

摘要:人工智能之父约翰·麦卡锡曾说:“有一天,计算可能会被组织成一个公共事业,就像电话系统是一个公共事业一样。”如今,他的这一预判已经成为现实,而在计算背后,不可或缺的算力也正在成为各大科技厂商竞相争夺的战略要地。

人工智能之父约翰·麦卡锡曾说:“有一天,计算可能会被组织成一个公共事业,就像电话系统是一个公共事业一样。”如今,他的这一预判已经成为现实,而在计算背后,不可或缺的算力也正在成为各大科技厂商竞相争夺的战略要地。

对于华为来说,AI 的快速发展也带来了巨大冲击。今年年初,华为云为了接住 DeepSeek 快速增长的用户和流量,组织多团队协同攻坚,终于在 4 月 30 号将 Ascend 910B/910C 的推理能力提升至满足客户基本需求的水平。

如何进一步满足全球产业用户的算力需求?华为副董事长、轮值董事长徐直军在 2025 华为全联接大会上给出了答案:“开创计算架构,打造‘超节点 + 集群’算力解决方案持续满足算力需求”。这一解答在回答去年遗留问题的同时,继续续写华为的技术和产业生态。

昇腾计算业务总裁张迪煊则就构建“以开发者为中心”的开源开放昇腾生态发表了主题演讲。同时,他宣布成立 CANN 技术指导委员会,这说明华为将对 CANN 技术的推进与落地建立更系统的指导机制。

常务董事汪涛就生态建设和产业布局向业界传递了华为的“四个坚定”:坚定开源开放、坚定发展人才、坚定全球合作、坚定战略投入。

今年年初,DeepSeek 的横空出世展示了一条不同于 ChatGPT 比拼模型参数的差异化路径,由于高效的注意力机制降低了计算复杂度,从而不再过度注重数据数量,减小了模型参数规模。不得不说,这一开创性模式有效缩减了算力需求。

然而,DeepSeek 所代表的技术优势主要集中于自然语言处理(NLP)领域。在物理层,比如涉及到识别、交互和空间操作上,能否在短时间找到全局最优解仍然还是未知数。对此,徐直军的看法是:“要走向 AGI、要走向物理 AI,我们认为,算力,过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键。”

算力是人工智能的关键,而算力自身的关键则在于芯片。从通用的 CPU,到擅长并行计算的 GPU,再到专为 AI 算法设计的 TPU、NPU,以及更为灵活的 FPGA,每种架构都在试图解决 AI 计算中的高性能、低功耗和低成本之间的平衡问题。而这些底层硬件的设计创新,最终也指向一个核心,那就是通过架构创新来突破冯·诺依曼结构瓶颈对算力提升的限制。

本次大会上,华为带来的 Ascend(昇腾)和 Kunpeng(鲲鹏)系列产品,分别采用了 NPU 和 ARM 的处理器架构,搭配上自创的“超节点 + 集群”算力解决方案,这一次,华为的技术杠杆又能撬动哪些产业变革?

布局 AI 算力,华为至今已经走过了七年。从 2018 年发布首款 Ascend 310,标志其自研 AI 芯片起步,到次年进一步发布 Ascend 910,算力达到 256 TFLOPS(FP16),成为当时全球算力最强的 AI 训练芯片之一,同时也填补了中国高端 AI 训练芯片的空白。

2021 年,昇腾 AI 芯片产品线持续扩展,同时启动了 CANN 芯片使能平台的开源计划。随着大模型技术爆发,昇腾 910B 等型号也在陆续推出,算力与能效比不断提升。

目前,昇腾团队正持续推进 Ascend 950 系列的研发,该系列作为 Ascend 910 的升级版本,包括 950PR 与 950DT 两种型号。从目前已发布信息来看,950 系列的性能提升主要体现在以下几个方面:新增对 FP8、MXFP8、MXFP4 等低精度数据格式的行业标准支持;显著增强向量计算能力;互联带宽比例大幅优化;以及通过自研的两种 HBM 合封方式,强化场景化芯片的定制能力。

据徐直军介绍,到 2028 年,华为还将推出 Ascend 960、Ascend 970 系列。960 系列在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比 Ascend 950 预计翻倍,大幅度提升训练、推理等场景的性能。而 970 的芯片规格目前还在讨论中。

而在底层硬件基础上,想要进一步为各行各业的算力需求提供解决方案,还需要 AI 算力基础设施的加持。为此,华为打造了“超节点 + 集群”的解决路径。实际上,早在发布 Ascend 910 的同年,华为便推出了 Atlas 人工智能计算平台,从而实现了从芯片到模块,再到整机,最终提供解决方案的全产业链布局。

大会上,徐直军对 Atlas 的关键架构“超节点”给出了物理层和逻辑层的诠释:“超节点事实上就是一台能学习、思考、推理的计算机,物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。随着算力需求的持续增长,超节点的规模也在持续、快速增大。”

在发布环节,基于 Ascend 950DT 的 Atlas 950 超节点率先亮相。根据公布的技术规格,该超节点可支持 8192 张搭载 Ascend 950DT 芯片的昇腾计算卡(每张卡对应 1 颗 Ascend 950DT 芯片)。在满配条件下,其总互联带宽预计将超过当前全球互联网峰值带宽的 10 倍以上。随后发布的第二款 Atlas 960 超节点,基于下一代 Ascend 960 芯片构建,最大支持规模进一步提升至 15488 卡。

搭配 Atlas 950 和 Atlas 960,徐直军还带来了两款集群产品:Atlas 950 SuperCluster 50 万卡集群,以及 Atlas 960 SuperCluster。相比目前世界最大集群 xAI Colossus,Atlas 950 SuperCluster 规模是其 2.5 倍,算力达到 1.3 倍。

在 Ascend 和 Atlas 技术参数的背后,反映了华为意图突破人工智能芯片在功耗、运算性能和能效方面的约束,极大提升能效比。从业界的实际应用情况来看,也确实有不少正向反馈:比如,搭载了数千颗昇腾 910 AI 处理器的“鹏城云脑 II”,曾在 AI Perf 500 算力榜单中连续位列榜首;上海超算中心构建的基于昇腾 Atlas900 Pod 算力集群人工智能公共算力服务平台,峰值速度可达 100PFLOPS(FP16),复杂任务得以在短时间内快速完成。

除了 AI 领域之外,通用计算领域同样需要超节点和集群。为此,华为在此次大会上推出了 Kunpeng 950 处理器,包括 96 核 /192 线程和 192 核 /384 线程两个版本,预计将于 2026 年第一季度推出。而基于 Kunpeng 950 的 TaiShan 950 成为全球首个通用计算超节点,最大支持 16 节点,32 个处理器,最大内存 48TB,同时支持内存、SSD、DPU 池化。

当下,互联网产业的推荐系统正在从传统的推荐算法向生成式推荐系统演进,华为也正在将 TaiShan 950 和 Atlas 950 打造成混合超节点,为下一代生成式推荐系统打开全新架构方向。

“只要有足够的眼球,所有的 Bug 都是肤浅的”——林纳斯定律说明了开源开放在推动技术的共建和进步上有多么重要。而在解决技术问题之上,开源还是后熊彼特创新范式的体现,成为推动科技创新的源动力。

汪涛曾在《开源心法》一书中强调:“华为一直积极拥抱开源,既是开源的使用者,也是开源的贡献者和发起者。”在本次大会上,他再次全面概括了华为开源开放的最新进展和未来计划:

“在通用计算领域,华为相继开源了鲲鹏全系列软件,包括 openEuler 操作系统、openGauss 数据库、openUBMC 固件管理、openFuyao 算力集群软件、BoostKit 鲲鹏应用使能套件。未来,华为将围绕通智融合向 openEuler 贡献更多的组件和能力。在 AI 领域,昇腾基础软件全面开源开放,今年新增开源 CANN、Mind 系列应用使能套件、openPangu 等,支持用户深度挖掘昇腾潜力,加快自主创新。同时,昇腾优先支持业界主流的开源社区和开源项目,昇腾新特性、组件和开发计划等都将在 PyTorch、vLLM、VeRL、SGLang、Triton 等开源社区上首发,让开发者第一时间获取到最新技术。”

张迪煊则就昇腾开源开放的软硬件生态进行了解读:

“首先,坚持硬件开放,不仅开放昇腾模组和标卡,也开放了灵衢互联能力,并提供详细设计文档,支持有能力的伙伴打造更具竞争力的超节点产品。

其次,坚持基础软件开源开放,把开发环境从公司内部搬到开源社区,与业界共创。从 CANN 到昇思 AI 框架再到 Mind 系列应用使能套件,提供全流程开发的参考实践。我们只有一个目的,就是让开发者用好昇腾,加速创新。”

具体来看,在硬件层面,昇腾通过开放模组和标卡的硬件组合,支持生态伙伴开发了 200 多款硬件产品,满足了各场景的差异化需求。张迪煊表示:“这个月已经推出了大模型推理设计的标卡,助力伙伴打造场景化的大模型应用一体机。明年,昇腾将新上市 Atlas 350 标卡、Atlas 550 模组和刀片等新产品,使能伙伴基于昇腾打造更具竞争力的服务器及超节点,共同构筑坚实的算力底座。”

在软件架构层面,昇腾通过分层解耦的设计,使开发者能够从模型、算子、内核,直到底层资源进行灵活按需地调用。其开源的底层 Runtime 能力进一步支持对硬件资源的细粒度调用,帮助开发者充分挖掘硬件性能,满足高性能场景的极致需求。据了解,下一代昇腾产品还将同时支持 SIMD+SIMT 的编程方式,满足不同场景的开发需求。

对于加速库的建设,开源了昇腾亲和加速库,支撑开发者即取即用。9 月底,昇腾将开源共享内存能力 Share Memory,在超节点范围内的所有片上内存都可实现资源池化共享,相较于传统以太网方案,通信时延有望实现大幅降低。

针对当前产学研界对低精度计算的积极探索,昇腾推出了 HiF8 的数据格式,并将其捐献给了全球计算联盟(GCC),从而推动相关标准的建立。

对于开发者而言,Profiling 和 Debug 是开发者自行探索和闭环问题的必备工具,过去,开发者反馈昇腾 Profiling 工具过于依赖个人经验。为此,华为提供了自动调优工具 msProfiler,并已开源。

值得关注的是,本次大会上正式成立了 CANN 技术指导委员会。实际上,华为早在 8 月 5 日的昇腾计算产业发展峰会上就已宣布,将全面开源开放其硬件使能层——CANN,同时开源的还包括 Mind 系列应用使能套件及相关工具链。此举旨在为开发者提供更底层的自主调度能力,支持深度挖潜和定制化开发,从而加速创业迭代。业界认为,通过“CANN+MindSpore”的组合,华为逐步形成了与“PyTorch+CUDA”对标的技术体系。

本月底,昇腾开发者生态进程即将迎来关键节点:CANN 全量算子将正式开源到 GitCode 社区。进入 12 月后,领域加速库、图计算、Ascend C、MindIE 等软件代码也会陆续上仓。此外,昇腾还将每年投入 1500P 算力和 3 万开发板,通过资源开放与全球开发者深度协作,这一系列动作标志着昇腾软件体系实现全量开源。

在应用落地上,昇腾正通过多维合作构建场景生态,推动 AI 技术向行业渗透:一方面联合软件伙伴打造适配具体需求的场景化方案,并提供高性能算力平台作为支撑;另一方面,则联动大模型伙伴与开源社区,推出昇腾亲和的开源模型和工具,降低行业应用开发门槛。

面向垂直行业,昇腾采用“联合定义、共同开发、协同上市、共同拓展”的模式,目前已与超 20 多家 ISV(独立软件开发商)展开合作,覆盖金融、能源、制造、教育及医疗等行业,落地应用包括:信贷报告生成、电子病例分析、智能电力调度、网络安全防护、教学助手等典型场景。

除了超节点和算力芯片的发布,以及开源产业生态的构建外,本次大会上还有一个比较值得关注的点——灵衢 2.0 技术规范的正式开放。

据徐直军介绍,基于灵衢 1.0 的 Atlas 900 超节点自 2025 年 3 月开始交付以来,已在全球范围内实现 300 多套的商用部署,这标志着该技术通过了大规模实践的充分验证。在灵衢 1.0 的基础上,华为通过增加功能、优化性能、提升规模等方面进一步完善了协议,从 1.0 升级到 2.0。除了自家部署(Atlas 950 超节点就是基于灵衢 2.0),也呼吁产业界伙伴基于该协议研发兼容的硬件产品与核心部件,共同推动灵衢开放生态的建设与完善。

此外,华为仍将坚定人才发展战略,尤其体现在与全球高校持续合作上。目前已构建了覆盖课程、师资、竞赛、认证与科研的人才发展机制,共同开发 3000 多门课程,合作设立了 3000 多所 ICT 学院,培养超过 170 万名人才。大会当天,华为正式启动“基础软件千校行动”,覆盖全球 20 多个国家、2000 多所高校,计划培养 1 万名教师和 100 万新型软件人才。

而要说什么是“The last but not least”,那一定是长期主义。未来五年,华为计划每年投入 150 亿人民币生态发展费用和 1500P 开源社区算力,以及 15000 人进行生态平台开发与支持。

来源:不秃头程序员

相关推荐