中国团队提出SRDA,一种专为AI大模型训推设计的下一代计算架构

B站影视 港台电影 2025-06-09 17:48 2

摘要:类GPGPU架构支持了AI大模型快速崛起,但其难以兼顾通用性和对大模型的针对性,在面对模型规模和复杂性的急剧膨胀时,其效率与成本的黑洞被诟病已久,甚至已经影响市场对大模型未来发展的预期。

算力成本是大模型应用起飞的前提,是下一代AI计算架构需要解决的最核心问题。

当大模型训推需求份额已占据过半的算力需求时,硬件层上针对大模型的创新却屈指可数,芯片设计几乎成为制程工艺的附庸。

应用需求 vs 基础设施供给

类GPGPU架构支持了AI大模型快速崛起,但其难以兼顾通用性和对大模型的针对性,在面对模型规模和复杂性的急剧膨胀时,其效率与成本的黑洞被诟病已久,甚至已经影响市场对大模型未来发展的预期。

玉盘MoonQuest团队充分拆解不同角度的算力问题(内存墙、存储墙、功耗墙等),认为核心都是I/O问题(数据的读写与搬运效率太低),制约了硬件理论算力的充分发挥,算力成本问题有进一步制约了整个行业的发展。

本文旨在提出一种从I/O出发、专为AI大模型训推设计的创新计算架构——SRDA(系统级极简可重构数据流架构 System-level Simplified Reconfigurable Dataflow Architecture ),辅以一份更为详细的架构白皮书,完整开源SRDA的架构理念、技术优势以及初代的核心组件,探讨从I/O优化角度出发克服现有算力成本瓶颈的新思路。

人工智能,尤其是深度学习,在过去十年中取得了显著进展。AI模型,特别是Transformer、Diffusion等架构的出现,使得模型参数量从数百万激增至数千万亿级别,直接导致了对计算资源,尤其是并行处理能力和内存带宽的极致需求,传统计算架构逐渐暴露多重制约:

性能提升依赖制程工艺:过去3年,工艺提升带来的单位面积算力优化只有15%,而主流观点认为当前芯片工艺极限约1nm,先进制程难以跟着大模型一起scale.内存带宽限制:现有主流类GPGPU架构采用的多级共享式内存(如HBM)在多线程并发访问时,读写冲突以及数据过度随机化极易产生显存访问拥塞,导致内存带宽往往成为实际应用中的瓶颈,尤其在处理巨型AI模型时问题更加严重。算力利用率低:由于架构设计、通信开销以及内存访问瓶颈等多重因素制约,芯片的理论峰值算力在实际AI负载中无法充分发挥。功耗屡创新高:顶级AI加速器芯片的功耗指标屡创新高,已成为制约其更广泛应用和可持续发展的核心瓶颈。以英伟达H100 GPU为例,其典型板卡功耗高达700瓦,基于光模块的超节点集群方案更是功耗惊人。这是类GPGPU架构依靠增加计算核来拉高算力导致的,算力增幅与功耗增幅几乎成正比。大规模集群扩展难题:传统两层网络(节点内高速互联如NVLink,节点间网络如InfiniBand/以太网)的设计,带来了带宽层级差异、协议转换开销、通信管理复杂等诸多问题,不得不占用大量计算资源来执行通信任务。软件复杂:现有AI加速方案的主流软件栈非常复杂,实际算力利用率低,而优化成本非常高,进一步限制了其在大模型领域的应用。

面对这些挑战,业界亟需创新的计算架构来突破现有瓶颈,满足AI大模型发展的技术需求。

SRDA 系统级精简可重构数据流架构是一种以数据流为中心、软硬件协同设计的AI计算架构,强调在成熟工艺下通过架构创新实现性能突破的潜力。其核心设计理念是通过数据流驱动计算,结合极简和可重构思路,最大限度地提升AI计算的效率、灵活性和可扩展性。

SRDA 将「数据流」的优化置于架构设计的核心(Data-Flow Architecture)。SRDA通过编译器解析计算图,定制优化路径,将计算图拆解后直接静态映射到硬件,实现数据在计算单元之间点到点直接传输,大幅减少了对中央内存的依赖和访问次数。这种设计理念从根本上减少了数据移动的距离和频率——这也是当前大模型计算系统中主要的性能和能耗瓶颈之一。通过让数据“流动”起来,让计算“追随”数据,SRDA最大化有效计算的占比,最小化等待和搬运的开销。软硬件超融合:为充分发挥硬件潜力,SRDA从设计之初就强调硬件架构与软件系统的超融合设计。这并非简单地为已有的硬件开发软件,而是在架构定义阶段就将软件精简性和易用性作为核心指标。(这也是玉盘仅20余人投入的核心起点,我们认为高效是AI时代的必然要求)SRDA的编译器对硬件的可重构特性、内存系统的架构与访问特性、以及互联网络的拓扑与通信特性拥有精确的认知。这使得编译器能够在编译阶段进行全局的静态优化,例如:将计算图高效地映射到物理计算单元,精确规划数据在片上和片间的传输路径,优化内存访问模式,以及预先配置数据流通路以消除运行时调度开销。这种深度的超融合设计,使得SRDA能够实现传统通用架构配合通用编译器难以企及的优化水平,从而将硬件的理论性能更充分地转化为实际应用性能。同时,SRDA软件栈也致力于对上层AI框架(如PyTorch、JAX及更上层的训推框架)提供简洁的接入层接口,使开发者不用感知底层硬件就能够高效利用SRDA的强大能力。精简与高效更低的复杂度:底层基于开源RISC-V指令集生态,大幅简化了指令系统和算子开发难度。同时,精简的架构也意味着芯片和系统的开发复杂度更可控,能更好的助力芯片设计团队及未来的用户大幅降低开发成本。可重构性与适应性:SRDA是为AI领域设计的专用架构,但并非僵化的固定模型的硬件加速器。AI算法和模型本身在快速演进,从经典的CNN、RNN到主流的Transformer,再到新兴的MoE(混合专家模型)、Mamba(状态空间模型)、DiT(Diffusion Transformer)、ViT(Vision Transformer)等,其计算特性和数据流模式各不相同。 SRDA的关键特性之一是其可重构性,硬件的数据路径、部分计算单元的功能组合以及内存访问模式,可以在一定程度上由软件根据具体的AI模型或计算任务进行配置和优化,实现:适应多样化的模型结构:针对不同模型的独特计算需求(如不同类型的注意力机制、循环结构或稀疏计算模式),配置最优的硬件执行方案。优化特定运算层:专业用户可以针对模型中的不同计算层或关键算子,进行细粒度的硬件资源匹配和数据流定制。面向未来模型架构的扩展性:为未来可能出现的新型AI算法和模型架构预留了适应空间,避免了因架构固化而过早被淘汰的风险。 通过这种受控的可重构性,SRDA™力求在专用加速器的高效率与通用处理器的高灵活性之间取得理想的平衡,以持续高效地支持AI技术的快速发展。

源于深厚I/O技术积累和市场需求洞察,玉盘SRDA凭借系统级数据流、分布式3D堆叠内存系统、I/O融合互连技术、极简可重构等多项关键技术模块,实现极简且高效的软硬件超融合SRDA架构,系统性解决当前算力面临的核心挑战。

QDDM™:分布式片上3D堆叠内存管理技术

为了突破“内存墙”的限制,SRDA采用了QDDM™(Distributed 3D DRAM Management)技术 。该技术利用先进的3D堆叠工艺,在计算芯片上直接集成了高带宽、大容量的分布式内存网络。QDDM™的关键特性包括:

计算单元内存私有化:每个计算核心或计算簇拥有其私有的、紧耦合的内存区域,天然支持带宽隔离,消除了多核心共享内存带来的带宽竞争和访问冲突。3D-DRAM专用控制技术:集成定制的3D-DRAM控制器,在提供高带宽利用率的同时,可有效缩短数据传输路径和访问延迟,并定制了专用的数据加速功能。良率提升方案:针对3D堆叠技术可能带来的良率挑战,SRDA™采用了的专用良率方案,确保了大规模生产的可行性和成本效益。QLink™:融合高速互连通信技术

在大规模AI计算集群中,节点间的通信效率是决定整体性能的关键因素。SRDA为此引入了QLink™融合高速互连技术 。QLink™旨在构建一个单层的统一、高效、低成本的互连网络,支持原生all-to-all的从芯片内部核间、芯片间(chip-to-chip)到服务器节点间(node-to-node)的无缝互连。

融合网络架构:将传统数据中心中可能并存的多种网络(如scale-up与scale-out网络)融合成统一的QLink™网络,简化网络拓扑,降低管理复杂度和部署成本,且无需昂贵的专用网卡。独立通信引擎:QLink™集成了自研的独立通信调度引擎,实现了计算任务与通信任务的完全解耦。通信操作由专门的硬件处理,不占用宝贵的核心计算资源,释放更多有效算力。高带宽与低延迟:QLink™提供高速互联带宽和低延迟特性,为大规模并行训练和分布式推理提供强大的通信支撑。线性扩展与高可靠性:集成了自研的增强型网络模块,有效降低数据拥塞,支持大规模AI集群(如十万卡级别)的近乎线性扩展,并增强了系统可靠性。极简AI编译器与协同设计的软件栈

SRDA架构的强大能力需要高效的软件栈来释放。为此,玉盘开发与硬件架构紧密协同的极简AI编译器和软件工具链 :

基于开源RISC-V生态:底层基于开源的RISC-V指令集生态,简化了底层算子的开发和优化难度,同时也为架构的开放性和社区合作提供了基础。聚焦核心与静态编译:编译器聚焦AI计算的核心功能,降低了系统复杂度。通过支持静态计算图优化和静态编译,能够在编译期间完成大部分的优化工作,为可重构数据流路径的配置和资源调度提供精确指导。兼容主流AI框架:前端接口设计注重与主流AI开发框架(如PyTorch、JAX以及上层的vLLM)的兼容性,使得用户可以平滑迁移现有的模型和开发流程。训推一体与资源优化:软件栈对推理、预训练和后训练等不同AI应用场景进行了重新设计和优化,以充分利用SRDA架构在算力、内存和通信方面的硬件优势,最大化资源利用率。在集群层面,实现对网络、计算、存储的统一管理和高效利用。高性能融合计算引擎与可重构数据流

与传统固定功能的计算单元不同,SRDA的计算单元支持根据AI模型的具体算子和数据依赖关系,动态构建和优化计算路径。这种可重构的数据流使得中间计算结果可以在计算单元之间直接点到点传输,无需频繁访问片外主存,从而极大减少了数据搬运开销,消除了数据拥塞,显著提高了实际算力利用率 。

该计算引擎特别针对AI工作负载进行了优化,定制了专用的计算单元以大幅提升峰值算力。此外,玉盘首颗SRDA芯片将原生支持FP8等主流趋势的低精度数据类型,对于降低内存占用、提升计算吞吐量至关重要,并能与采用FP8原生模型精度的前沿模型高效配合。计算单元还支持灵活的计算组合,保证了较强的通用性。

重塑数据中心与智能算力网络:QLink™等互联技术的创新,不仅优化了单服务器内部的通信,更为构建高效、低成本、易扩展的超大规模AI数据中心(“AI token工厂”)提供了新的解决方案。未来,SRDA的理念和技术也可能延伸至边缘计算乃至端侧设备,满足不同场景下对高效AI处理能力的需求,为构建泛在的智能算力网络贡献力量。赋能下一代AI大模型与复杂应用:当前AI模型正朝着更大参数规模、更复杂结构(如多模态融合、长程依赖处理)的方向发展。SRDA™提供的超高实际算力、超大内存带宽和容量、各类精度覆盖,将为这些当前受限于硬件能力的下一代AI模型的训练和部署提供坚实基础,催生出更加智能和强大的AI应用。探索AI计算架构的范式演进:作为一种专为AI设计的领域专用架构,SRDA以数据流为中心的设计理念,以及其在分布式内存系统和融合网络上的创新,对传统以控制流为主、依赖共享内存和分层网络的通用计算架构构成了重要补充和发展。基于此,我们有望进一步推动AI芯片设计向更深层次的软硬件协同优化和专用化方向发展,加速形成针对不同AI负载特征的异构计算生态。SRDA所强调的可重构性,也为应对在transformer之上进一步快速迭代的AI算法提供了灵活性,我们希望和各方模型伙伴探索演进。构建开放与协作的生态系统:我们期待围绕SRDA架构,与AI框架开发者、模型研究社区、行业应用伙伴以及上下游供应链企业展开深度合作。通过开放部分硬件细节、提供完善的SDK和开发工具、共同定义和优化上下游关键组件与芯片的协同(“芯云一体”、“芯模一体”、“算电一体”等),旨在构建一个活跃、共荣的开发者和用户社区,加速SRDA技术的普及和创新应用。

当一个场景的技术需求走向收敛,市场需求从小规模科研走向大规模应用,底层基础设施由专用架构替代通用架构实现最高性价比几乎是市场的必然选择,从图像显示市场GPU替代CPU,到矿机市场矿卡替代GPGPU。

玉盘MoonQuest团队从芯片、Infra、应用等不同角度看到了当前AI计算架构下算力瓶颈给AI发展带来的限制,于2025年的今天提出SRDA架构,并推出接下来的相关芯片,不仅是我们对当前AI算力瓶颈的回应,也是尝试对未来AI计算领域的发展可能性提出一次“天问”(A Moonquest)。

近期DeepSeek团队在其新论文《Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures》中从芯片用户角度对未来AI硬件提出了一些期待,其中很多点和SRDA架构的思路不谋而合,也让我们更有信心SRDA架构有机会成为下一代针对AI大模型场景的更优计算架构。

我们期待除玉盘外,未来有更多AI大模型计算芯片考虑SRDA,继模型层、Infra层之后,在硬件层也助力加速AGI的到来。

《SRDA计算架构白皮书》:

— 完 —

来源:量子位

相关推荐