算力革命的趋势:从GPU架构瓶颈到类存算一体的未来智能网络

B站影视 欧美电影 2025-06-02 19:26 1

摘要:近年来,随着GPT、Sora、Claude等大规模预训练模型的兴起,Deepseek的横空出世,引无数企业竞相本地部署满血版的deepseek推理一体机。然而,当前主流的算力基础设施——以NVIDIA GPU为核心的加速器集群,正在逐渐暴露出架构层面的“算力天

近年来,随着GPT、Sora、Claude等大规模预训练模型的兴起,Deepseek的横空出世,引无数企业竞相本地部署满血版的deepseek推理一体机。然而,当前主流的算力基础设施——以NVIDIA GPU为核心的加速器集群,正在逐渐暴露出架构层面的“算力天花板”。人工智能对算力的需求呈现指数级增长。

大模型的参数量从早期的百万级(如AlexNet)增长到如今的千亿级(如GPT-3的1750亿参数),新一代模型如GPT-4o的参数量可能达到万亿级

参数量的增长直接导致训练和推理所需的计算量呈指数级上升。例如,GPT-3到GPT-4的训练数据量从0.3TB增至13TB,算力需求增长超过42倍

AI训练需要海量数据支撑,例如单次油气勘探的数据量可达PB级,而多模态大模型(如语言、图像融合)需要处理的数据规模更大

数据量与模型性能呈幂律关系(Scaling Law),为提升性能需同步扩大数据规模和参数量,进一步推高算力需求

摩尔定律放缓,芯片制程接近物理极限(如1nm以下),单纯依靠硬件升级难以满足算力需求,只能通过堆叠更多硬件,导致能耗和成本飙升

尽管算法优化(如模型压缩)可部分降低算力需求,但对高性能任务(如自然语言生成)的影响有限,无法抵消模型规模增长带来的算力消耗

根据Scaling Law,模型性能与算力、数据、参数三者的规模强相关。理论上,只要持续扩大这三者,性能可无限提升,但实际受限于能源和硬件资源

例如,训练GPT-4耗电约1,287兆瓦时,相当于550吨二氧化碳排放;若算力需求按当前增速(每3.4个月翻倍)发展,2030年AI数据中心用电量或占中国总发电量的10%

自动驾驶、实时翻译等场景需低延迟处理海量数据,边缘计算与云计算融合虽能提升效率,但整体算力需求仍随应用普及而增长

生成式AI(如AI绘画、写作)的普及推动推理算力需求快速提升,预计2025年全球企业生成式AI支出将达691亿美元

GPU 的并行处理能力固然强大,但在超大模型训练过程中,真正的瓶颈并非浮点运算本身,而在于数据搬运带来的延迟、功耗和带宽瓶颈。在GPU堆叠的过程中,我们无法简单地通过数量叠加获得线性算力提升,这是因为跨卡通信(如NVLink、PCIe 或 InfiniBand)远远无法匹配片内计算的带宽和延迟要求。尤其在模型参数达到万亿级时,梯度同步、激活值存取等操作会引发严重的“带宽堵塞”。

未来的AI架构,若继续基于“计算-存储分离”的传统冯·诺依曼体系,势必难以满足持续扩展的模型规模,尤其在能效(FLOPS/Watt)上面临严重挑战。

存算一体(Processing-in-Memory, PIM 或 Compute-in-Memory, CIM)架构的核心思想,是将计算单元直接嵌入存储介质中,实现“就地计算”。该结构最大限度地减少了处理器和存储器之间的数据搬运,相当于将计算延迟压缩至接近一级缓存访问的水平。

以SRAM、RRAM、MRAM为代表的新型存储器件,在一定程度上已经可以完成乘加(MAC)运算、矩阵变换等神经网络核心计算。其典型特点包括:

1) 高带宽:片内带宽远高于DDR/HBM等外部存储;

2) 低延迟:无需数据跨越总线进行传输;

3) 低功耗:搬运数据的能耗常常远高于计算本身;

4) 并行性强:天然适配卷积、矩阵乘法等操作。

A100 GPU内置40GB HBM2内存,理论带宽1555 GB/s;

通过NVLink互联最多支持8-GPU集群;

问题:模型分布式训练时,通信瓶颈导致实际带宽利用率低于60%,尤其在大batch训练中,通信耗时占比高达40%以上;

瓶颈根源:模型参数和梯度频繁搬运,存储与计算严重分离。

示例2:三星 HBM-PIM 芯片

三星在2021年发布了基于HBM2的PIM(Processing-in-Memory)原型:

将加速器核心(如乘加单元)嵌入到HBM堆栈中;

对AI推理场景(如Transformer)提升了约2.5倍能效;

适用于Recommendation Engine和边缘AI芯片。

示例3:忆阻器(Memristor)类CIM芯片

清华大学和中科院近年推出的忆阻器矩阵可直接进行矩阵乘法(MAC);

具有非易失性存储和模拟乘加功能;

应用于低功耗神经形态计算系统,如“天机芯”。

避免矩阵乘法对算力和存储的无限消耗。

以Intel CPU为例,其L1 Cache访问延迟约为1ns,远低于主内存(DRAM)的100ns以上延迟,存算一体架构可实现类似甚至更优的能效比。

表1:各类计算架构中数据搬运带宽与能耗比较(单位:GB/s, pJ/bit)

尽管目前的CIM技术仍主要应用于片内计算,但其背后的核心理念——降低数据移动,靠近存储执行计算,具备广泛的系统架构启发意义。

我们可以按与存储的接近程度,划分出以下几种类存算一体架构:

通过构建多个具备局部CIM能力的算力节点,可以在“广域智能网络”中实现类似“片内”计算的能效——这对未来AI算力架构具有根本性意义。

当前,全球数据中心正面临集约化和边缘化的双重趋势。未来人工智能的部署需要在端、边、云、天基(星际) 各层级协同优化,构建出一张覆盖全域的类存算一体智能网络:

1) 端侧智能:通过SoC集成CIM能力,实现低功耗推理;

2) 边缘智能:部署具备本地训练和感知能力的微型算力节点;

3) 云上智能:超算中心内部构建近存/类存结构,优化AI训练;

4) 星际智能:面向月球、火星探索部署天基AI节点,强调低延迟与自治计算能力。

为此,国家级算力网络需要一体化地进行以下优化:

1) 节点布局:类似高速公路规划,选择低能耗高连通性的位置;

2) 数据路由协议:需打破传统TCP/IP模型,引入“任务优先”数据流调度;

3) 智能路由协同机制:类脑机制下的动态网络塑形;

4) 跨域协同标准:卫星-地面-边缘统一协议栈。

令人惊奇的是,人类大脑、人工智能算力网络,以及人类组织结构三者之间,似乎存在某种结构同构性。

1) 人脑:拥有超过1000亿神经元,计算与存储融合,局部自治又全局协同;

2) 大脑组织:自底向上的分层管理结构,如神经元簇、皮层区;

3) 智算网络:正朝着分布式、异构、类脑协同的方向演进。

4) 人脑网络:人和人按社会组织结构,行政区划,城市布局以及交通网络形成脑连网。

5) 人脑和智算网络的互操作,完成更高一级的智能。

康威定律(Conway's Law)再次验证这一趋势:算力架构的最终形态,必然受限于背后组织的沟通结构。只有当全国乃至全球在逻辑、调度、协议上的“协同结构”充分优化时,算力系统才能实现最大效能释放。智算的最终架构如何可以和人脑同构,则效率将会是最优的。只不过目前技术还不能支撑,所以才采取GPU这样的折衷方案。

大脑是存算一体的架构,大脑皮层分为多个功能区,对接收的数据进行处理,不会进行数据搬运,各个功能区传输给上层组织都是处理完的信息。所以大脑的处理能力高,功耗低。不过以后如果依赖于外部计算能力,变成AI辅助的大脑,则受限于人类的落后的人机交互则不完全算存算一体了。只有等脑机接口实现后,相当于类存算一体的架构。但是由于AI辅助的能力会不断增强,所以AI辅助的大脑还是要强于单独的大脑。

在某种哲学层面上,宇宙也可以看作是某种高阶“意识体”中脑结构的具象投影。我们在构建智能网络时,可能只是无意识地复制了自然智能的某种演化逻辑。我们目前整个国家的布局是按照几个大的经济中心通过高铁,高速公路,飞机进行连接,越发达的地区交通越便利,这个布局和我们大脑的结构类似。同时按照类存算一体的思路去建设我们的智能网络,最后应该也是有算力需求的区域经济就近部署算力中心,数据中心,中心之间通过高速网络进行连接,主要的计算都是在算力中心和数据中心内部搞定。将来算力或智力基础设施像阳光,空气网络一样必不可少,需求无处不在。将来随人类的星际扩展,空间智算中心(提供算力的全球覆盖,对外太空的飞行器提供智力支持,满足星球大战的潜在需求),月球智算中心,火星智算中心应该逐步发展起来。

从GPU架构的瓶颈出发,存算一体理念正在引领AI基础设施的范式转移。通过将“就地计算”推广到全链路系统,我们正在重构整个算力基础设施网络。而这一技术演进,最终将使得智能覆盖从人类社会延伸至地月轨道,甚至更遥远的火星基地。

在这场浩瀚的算力革命中,技术、组织与哲学三者交汇。或许终有一天,我们会发现:“我们构建的智能网络,其实就是我们自身意识结构的延伸。”

算力网络的分层结构与类存算一体架构映射

宇宙级智能架构(结构自洽)

星际智能(天基AI) Class C-CIM

└— 低延迟、高自治的星链节点计算平台

云端智能(中心AI) Class B-CIM

└— CIM服务器/高带宽交换结构

边缘智能(城市/园区) Class A-CIM

└— 边缘推理设备、本地微型中心

端侧智能(个体/设备) Class S-CIM

└— SoC级CIM(手机、眼镜、机器人)

英伟达的GPU的设计逐渐不能满足人工智能对算力,效率,功耗的要求,类脑的存算一体的架构的逐渐发展将逐渐成为新的发展方向。

苹果公司最近发布的 M3 Ultra 芯片是目前唯一能够在本地运行 DeepSeek R1 满血版(6710 亿参数)的消费级芯片。这款芯片首次搭载于新款 Mac Studio,凭借其强大的硬件配置和高效的架构设计,在 AI 模型运行方面表现出色。

M3 Ultra 芯片亮点

架构设计:M3 Ultra 采用苹果独有的 UltraFusion 技术,将两枚 M3 Max 芯片融合,集成了 1840 亿个晶体管,提供高达 32 核 CPU(24 个性能核心 + 8 个效率核心)、80 核 GPU 和 32 核神经网络引擎(NPU)。

内存与带宽:支持最高 512GB 的统一内存,内存带宽高达 819GB/s,满足大型 AI 模型对内存容量和带宽的严苛要求。

能效表现:在运行 4-bit 量化版本的 DeepSeek R1 模型时,整机功耗仅约 200W,远低于传统多 GPU 配置所需的2000W以上的功耗。

与英伟达 GPU 的对比

虽然英伟达 H100 在显存带宽和浮点计算性能方面占优,但苹果 M3 Ultra 凭借其统一内存架构和高能效设计,能够以更低的成本和功耗运行大型 AI 模型,尤其适合需要本地部署的场景。

苹果的统一内存和显存的安排是一种类存算一体的架构,功耗低到英伟达的方案的十分之一,单机完胜GPU集群, 充分体现了类存算一体架构的优势。

M3 Ultra 没有采用真正意义上的“存算一体”(Processing-In-Memory, PIM)架构,但它在架构设计上确实具备了一些类“存算一体”特征,主要体现在其统一内存架构(Unified Memory Architecture, UMA)和神经网络引擎(NPU)集成方面。这些设计虽然不等于PIM,但在实践中可以达到类似的提升数据吞吐效率与降低能耗的目的。

M3 Ultra 是否采用存算一体或类似架构

✅ 统一内存架构(UMA)——“类存算一体”的关键设计

所有计算单元(CPU、GPU、NPU)共享一块统一的大容量内存,避免了数据在不同内存池(如传统CPU内存与GPU显存)之间的频繁拷贝。带宽高达 819GB/s,可支持最高 512GB 共享内存,极大降低了“内存墙”带来的瓶颈。

类存算一体特性: 虽然数据仍需在存储器和计算单元之间移动,但由于统一地址空间、统一访问机制,数据“近计算”能力大幅提高。

✅ NPU神经网络引擎的片上集成

M3 Ultra 内建 32 核神经网络引擎(Apple Neural Engine),专为机器学习任务加速,能够以低功耗、高带宽方式进行矩阵乘法、张量处理等操作。

神经网络引擎直接与统一内存相连,无需频繁访问外部存储,在某种意义上具备局部“算在内存附近”的特征。

❌ 未使用真正意义上的存算一体技术(如PIM)

真正的存算一体要求计算单元嵌入到内存中(如DRAM或ReRAM中进行逻辑操作),以从根本上打破冯诺依曼架构的瓶颈。

苹果目前的芯片设计中并未在DRAM或缓存中集成通用计算功能,因而不属于严格定义的存算一体结构。

对比:M3 Ultra vs 真正的存算一体架构

M3 Ultra 本质上并不是存算一体芯片,但它的统一内存和NPU协同设计使其在某些高吞吐AI场景中具备类存算一体的优势:高带宽、低延迟、高能效。这也是它能以较低功耗本地运行 DeepSeek R1 这种超大模型的关键原因之一。

有钱了搞一台,玩游戏会不会很爽。

Han, S. et al. (2021). "Processing-In-Memory for Energy-Efficient Neural Network Training: A Survey". ACM Computing Surveys.

Samsung Electronics (2021). "HBM-PIM: World's First AI Processing-in-Memory".

Jouppi, N. et al. (2017). "In-Datacenter Performance Analysis of a Tensor Processing Unit". ISCA.

张尧学等. (2022). 《智能计算架构的未来趋势》. 计算机学报.

Conway, M. (1968). "How Do Committees Invent?" Datamation.

来源:点智库

相关推荐