摘要:在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为Rubin CPX(Rubin Context GPUs)的新 GPU,专为超过 100 万 token 的长上下文推理而设计。
在周二的 AI 基础设施峰会上,英伟达宣布推出一款名为 Rubin CPX(Rubin Context GPUs) 的新 GPU,专为超过 100 万 token 的长上下文推理而设计。
对用户而言,这意味着他们在软件开发、视频生成等长上下文任务中能够获得更好的性能。
例如,在软件开发中,AI 系统必须能够对整个代码库进行推理、理解仓库级代码结构,才能更好的帮助开发者。同样地,长视频和研究类应用也要求在数百万 token 范围内保持持续的连贯性和记忆。
现在,随着 Rubin CPX 发布,这些问题都能迎刃而解。
这款新型 GPU(Rubin CPX) 将与 NVIDIA Vera CPU 和 Rubin GPU 搭配使用,共同组成全新的 NVIDIA Vera Rubin NVL144 CPX 平台。这一集成式 NVIDIA MGX 系统在单机架内可提供 8 exaflops AI 算力,其 AI 性能是 NVIDIA GB300 NVL72 系统的 7.5 倍,并配备 100TB 高速内存和 1.7 PB/s(petabytes)内存带宽。
同时,NVIDIA 还将为已有 Vera Rubin NVL144 系统的客户提供 Rubin CPX 专用计算托盘,以便在现有平台基础上进行复用。
NVIDIA Vera Rubin NVL144 CPX 机架与计算托盘,配备 Rubin CPX、Rubin GPU 和 Vera CPU
NVIDIA 创始人兼首席执行官黄仁勋表示:Vera Rubin 平台将标志着 AI 计算前沿的又一次飞跃,它不仅引入了下一代 Rubin GPU,还带来了一类全新的处理器 CPX。正如 RTX 曾经彻底改变图形处理和物理 AI 一样, Rubin CPX 是首款专为大规模上下文打造的 CUDA GPU,使模型能够一次性在数百万 token 的知识范围内进行推理 。
对于这款新的 GPU,很多人认为这将会改变创作者的游戏规则。
Rubin CPX 技术突破
众所周知,大模型正逐步演变为具备多步推理、持久记忆和长上下文能力的智能体系统,使其能够胜任软件开发、视频生成与深度研究等复杂任务。
但这些工作负载对基础设施提出了前所未有的要求,在计算、存储和网络方面带来了全新挑战,迫切需要从根本上重新思考推理的规模化与优化方式。
为此,英伟达 SMART 框架提供了一条可行方案。该框架强调采用全栈解耦式基础设施,实现计算与内存资源的高效调配。通过 Blackwell 架构 GB200 NVL72 平台与 NVFP4 低精度推理技术的结合,辅以 TensorRT-LLM、Dynamo 等开源软件,使得整个 AI 领域的推理性能大大提升。
另一方面,推理过程包含两个截然不同的阶段:上下文处理与内容生成,每个阶段对基础设施的需求存在本质差异。
上下文阶段属于计算密集型,需要高吞吐量处理能力来摄入和分析海量输入数据,以产生首个输出 token。
相比之下,生成阶段则受限于内存带宽,依赖 NVLink 等高速互连技术实现快速内存传输,以维持逐 token 输出的性能表现。
解耦式推理架构使这两个阶段能够独立处理,实现对计算与内存资源的精准优化。这种架构变革显著提升了系统吞吐量,降低了延迟,并全面提高资源利用率。
然而,解耦式架构也带来了新的复杂性,需要在低延迟 KV 缓存传输、LLM 感知路由以及高效内存管理之间实现精确协调。
NVIDIA Dynamo(一个开源、低延迟的模块化推理框架) 作为这些组件的编排层,在最新的 MLPerf Inference 结果中发挥了关键作用。借助 Dynamo 在 GB200 NVL72 上的解耦推理,创造了新的性能纪录。
为了充分发挥解耦推理的优势,尤其是在算力密集的上下文阶段。
正是在这样的背景下,NVIDIA 推出了 Rubin CPX GPU: 专为高价值长上下文推理工作负载设计的解决方案 ,能够提供高吞吐性能,并与解耦式基础设施实现无缝集成。
在技术上,基于 NVIDIA Rubin 架构,Rubin CPX GPU 采用了具备高性价比的单片设计,内置强大的 NVFP4 计算资源,并针对 AI 推理任务进行了优化,以实现极高的性能与能效表现。
具体而言,Rubin CPX 采用 NVFP4 精度,可提供高达 30 petaflops 算力,在性能与精度上均达到业界领先水平,并配备 128GB 高性价比 GDDR7 内存 ,能够加速最苛刻的上下文计算任务。此外,与 NVIDIA GB300 NVL72 系统相比,Rubin CPX 的注意力处理能力提升了 3 倍,显著增强了 AI 模型在长上下文序列处理中的速度与稳定性。
随着 Rubin CPX 的官宣,业界也是好评连连。Cursor 首席执行官 Michael Truell 表示:借助 NVIDIA Rubin CPX,Cursor 将能够实现极速代码生成和深度开发者洞察,从而重塑软件创作方式。这将释放前所未有的生产力水平,赋能用户将曾经遥不可及的创意快速实现。
Runway 首席执行官 Cristóbal Valenzuela 表示:视频生成正快速迈向更长上下文和更灵活的智能体驱动创作流程。我们认为 Rubin CPX 在性能上的飞跃,将为这些高强度任务提供有力支持,从而构建更通用、更智能的创意工具。这意味着,从独立艺术家到大型工作室,创作者都能在工作中获得前所未有的速度、真实感和掌控力。
最后,NVIDIA Rubin CPX 预计将于 2026 年底 上市,大家再等等。
来源:晚晚的星河日记一点号