摘要:北京时间 3 月 19 日凌晨 1:00 大洋彼岸的美国加利福尼亚州圣何塞会议中心灯火通明,人声鼎沸。全球科技界瞩目的年度盛会——英伟达 GTC 2025 大会在这里盛大开幕。
北京时间 3 月 19 日凌晨 1:00 大洋彼岸的美国加利福尼亚州圣何塞会议中心灯火通明,人声鼎沸。全球科技界瞩目的年度盛会——英伟达 GTC 2025 大会在这里盛大开幕。
作为全球人工智能和计算机图形学领域的顶级峰会,GTC 大会一直被视为行业风向标,每年都吸引着来自世界各地的科技巨头、专家学者和开发者齐聚一堂,共同探讨 AI 技术的未来发展方向。
活动一开始,英伟达首席执行官黄仁勋率先出场强调了计算和软件的重要性表示。老黄表示:世界正在进行一场过渡——计算方式迎来变革、软件的未来需要资本投资。本次演讲,也主要围绕这两方面进行。
首先,黄仁勋讨论了 AI 如何发展。现在我们处于生成式人工智能阶段,但根据黄仁勋的图表,我们正走向代理式人工智能时代,随后是物理人工智能。这就是机器人发挥作用的地方。
黄仁勋提到,人工智能之所以变得更有用,是因为它“更聪明,可以推理”,而且它的使用范围越来越广。一方面,我们能够进行的数据和人工训练是有限的,另一方面,训练和推理这些模型所需的计算量也大幅增加。
他表示:“人工智能的 Scaling Law 更具弹性,事实上是超加速的,”黄仁勋声称去年该行业对计算需求的理解存在错误。“由于代理 AI 和推理,我们目前所需的计算量是我们认为的 100 倍”。
为此,黄仁勋对数据中心业务相当有信心,“我之前说过,我预计数据中心建设将达到 1 万亿美元。我相当确定我们很快就会达到这个目标。”
黄仁勋还表示,我们也正在从使用主要由人类编写的软件转向由 AI 模型驱动的软件。“在未来,计算机会为软件生成代码片段……而不是仅仅作为文件的检索器。”
1 为 CUDA 加速“英伟达是一家软件公司”的含金量还在上升。这次,黄仁勋在演讲前半程将精力放在了软件上。
“NVIDIA 一直使用通用计算机,以超慢的速度运行软件为他人设计加速计算机”黄仁勋说道,“直到最近,我们才有针对 CUDA 优化的软件库。”
CUDA 是 NVIDIA 于 2006 年推出的并行计算核心,为众多应用提供计算加速能力。NVIDIA 已构建了 900 多个特定领域的 NVIDIA CUDA-X 库和 AI 模型,现在,CUDA-X 将加速计算带入了一系列新的工程学科,包括天文学、粒子物理学、量子物理学、汽车、航空航天和半导体设计。
其中,cuDSS 库用于解决涉及稀疏矩阵的大型工程模拟问题,适用于设计优化、电磁模拟工作流程等。cuDSS 使用 Grace GPU 内存和高带宽 NVLink-C2C 互连来分解和解决通常无法放入设备内存的大型矩阵。
使用 Warp(一个基于 Python 的框架,用于加速数据生成和空间计算应用),Autodesk 使用八个 GH200 节点可以进行最多 48 亿个单元的模拟,这比使用八个 NVIDIA H100 节点进行的模拟大了超过 5 倍。
此外, CUDA-X 中还有用于 NumPy 的 cuPYNUMERIC、用于决策优化的 cuOPT(NVIDIA 将对其进行开源)、用于量子计算研究 cuQuantum,以及用于天气分析的 Earth-2 和用于医学成像的 MONAI 等。
黄仁勋表示:“这只是实现加速计算的众多库中的一小部分。”所有这些库都依赖 NVIDIA 的 CUDA 核心来完成工作,“如果没有 CUDA 以及我们拥有如此庞大的使用基础,这些库不会对使用它们的开发人员有任何作用。”
黄仁勋指出,人工智能始于云端,因为云数据中心拥有支持人工智能的基础设施。他认为,未来每家公司都会有两个工厂:一个用于生产产品,另一个用于 AI 数学。
2 发布“AI 工厂的操作系统”DynamoDynamo 的发布,把本场会议再次推向了一个小高潮。
Dynamo 是一款开源推理软件,用于以最低的成本和最高的效率加速和扩展 AI 工厂中的 AI 推理模型。
在大量 GPU 中高效编排和协调 AI 推理请求对于确保 AI 工厂以最低成本运行以最大化 token 收入至关重要。
随着人工智能推理成为主流,每个人工智能模型都会生成数以万计的 token,用于在每次提示时“思考”。提高推理性能并不断降低推理成本可加速增长并增加服务提供商的收入机会。
英伟达 Dynamo 是 Triton 推理服务器的后继产品,是一款新型 AI 推理服务软件,旨在为部署推理 AI 模型的 AI 工厂最大限度地创造 token 收入。它协调和加速数千个 GPU 之间的推理通信,并使用分解服务将大型语言模型的处理和生成阶段分离在不同 GPU 上。这允许每个阶段根据其特定需求进行独立优化,并确保最大程度地利用 GPU 资源。
黄仁勋表示:“世界各地的行业都在训练 AI 模型以不同的方式思考和学习,随着时间的推移,它们会变得更加复杂。为了实现自定义推理 AI 的未来,Dynamo 有助于大规模服务这些模型,从而推动整个 AI 工厂的成本节约和效率提高。”
使用相同数量的 GPU,Dynamo 使在当今 NVIDIA Hopper 平台上为 Llama 模型提供服务的 AI 工厂的性能和收入翻了一番。 在 GB200 NVL72 机架的大型集群上运行 DeepSeek-R1 模型时,Dynamo 的智能推理优化还将每个 GPU 生成的 token 数量提高了 40 倍以上 。
为了实现这些推理性能改进,NVIDIA Dynamo 整合了可提高吞吐量和降低成本的功能。它可以根据不断变化的请求量和类型动态添加、移除和重新分配 GPU,以及在大型集群中精确定位特定 GPU,以最大限度地减少响应计算和路由查询。它还可以将推理数据卸载到更便宜的内存和存储设备,并在需要时快速检索它们,从而最大限度地降低推理成本。
NVIDIA Dynamo 完全开源,支持 PyTorch、SGLang、NVIDIA TensorRT-LLM 和 vLLM,使企业、初创公司和研究人员能够开发和优化跨分解推理服务 AI 模型的方法。它将使用户能够加速 AI 推理的采用,包括 AWS、Cohere、CoreWeave、Dell、Fireworks、Google Cloud、Lambda、Meta、Microsoft Azure、Nebius、NetApp、OCI、Perplexity、Together AI 和 VAST。
Dynamo 将推理系统在内存中保存的知识映射到可能数千个 GPU 上的先前请求(称为 KV 缓存)。然后,它将新的推理请求路由到具有最佳知识匹配的 GPU,从而避免昂贵的重新计算并释放 GPU 来响应新的传入请求。
3 推出 Blackwell Ultra 和 Vera Rubin 芯片去年,Blackwell AI 芯片因复杂设计导致量产延迟,近期才开始大批量出货。尽管如此,Blackwell 仍被寄予厚望,预计将成为英伟达明年 AI 业务的主要支柱。
黄仁勋表示,现在 Grace Blackwell 解决方案已全面投入生产。
而接下来,万众瞩目的 Blackwell Ultra 终于登场了。
老黄在演讲中提到:“NVIDIA Blackwell Ultra 增强了训练和测试时间扩展推理(在推理过程中应用更多计算以提高准确性的艺术),使世界各地的组织能够加速 AI 推理、代理 AI 和物理 AI 等应用。”
Blackwell Ultra 以一年前推出的突破性 Blackwell 架构为基础,包括 NVIDIA GB300 NVL72 机架级解决方案和 NVIDIA HGX B300 NVL16 系统。
据悉,Blackwell Ultra 将推出两个版本,其中一个配备两个与 Nvidia Arm CPU 配对的芯片,称为 GB300;另一个版本仅配备 GPU,称为 B300。它还将推出带有八个 GPU 的单个服务器刀片版本,以及一个包含 72 个 Blackwell 芯片的机架版本。
Blackwell Ultra NVL72 平台将于 2025 年下半年上市。它的带宽是原来的两倍,内存速度是原来的 1.5 倍。
黄仁勋表示:“人工智能已经取得了巨大的飞跃——推理和代理人工智能需要更高数量的计算性能。我们为这一刻设计了 Blackwell Ultra——它是一个单一的多功能平台,可以轻松高效地进行预训练、后训练和推理人工智能推理。”
黄仁勋表示,“在推理模型中,Blackwell 的性能是 Hopper 的 40 倍”。在展示中,传统模型的代表是 Meta Llama 3.3,而推理模型是 DeepSeek 的 R1。
与 Hopper 一代相比,NVIDIA HGX B300 NVL16 在大型语言模型上的推理速度提高了 11 倍,计算能力提高了 7 倍,内存增加了 4 倍,从而为 AI 推理等最复杂的工作负载提供了突破性的性能。“只有在英伟达,你才会被数学折磨。”黄仁勋调侃道。
“无论如何,买得越多,省得越多。”看得出来,黄仁勋确实很想提高 Blackwell 销量。
英伟达表示,四大云计算公司部署的 Blackwell 芯片数量是 Hopper 芯片的三倍。云提供商可以使用 Blackwell Ultra 为时间敏感型应用程序提供高端 AI 服务,从而使其从新芯片中获得的收入达到 2023 年推出的 Hopper 一代的 50 倍。
但值得注意的是,老黄在现场并未透露 Blackwell Ultra 比原版 Blackwell 有多好。
但据外媒消息,在与记者的一次事先简报会上,英伟达曾透露,单个 Ultra 芯片将提供与 Blackwell 相同的 20 petaflops AI 性能,但现在拥有 288GB 的 HBM3e 内存,而不是 192GB。同时,Blackwell Ultra DGX GB300“Superpod”集群将提供与 Blackwell 版本相同的 288 个 CPU、576 个 GPU 和 11.5 exaflops FP4 计算能力,但拥有 300TB 的内存,而不是 240TB。
接着,黄仁勋发布了下一代 GPU 系列 Vera Rubin——以美国天文学家 Vera Rubin 名字命名。据悉,Vera Rubin 有两个主要组件:一个称为 Vera 的 CPU 和一个称为 Rubin 的新 GPU 设计,具有 NVLink 144。该公司表示,Vera 是 Nvidia 的首款定制 CPU 设计,它基于名为 Olympus 的核心设计。
与 Vera 搭配使用时,Rubin 可以在进行推理时实现每秒 50 千万亿次浮点运算,比 Blackwell 每秒 20 千万亿次浮点运算的速度高出一倍多。Rubin 还可以支持高达 288 GB 的快速内存,这是 AI 开发人员关注的核心规格之一。 Rubin Ultra 将于 2027 年下半年推出 。
英伟达还在对其所谓的 GPU 进行调整。英伟达表示,Rubin 实际上是两个 GPU。
目前市场上的 Blackwell GPU 实际上是两个独立的芯片组装在一起作为一个芯片工作。从 Rubin 开始,当将两个或多个芯片结合成一个单一芯片时,它会将这些芯片称为独立的 GPU。
在 2027 年下半年,英伟达计划发布一款名为“Rubin Next”的芯片,将四个芯片结合成一个单一芯片,使 Rubin 的速度翻倍,并将其称为四个 GPU。
黄仁勋展示了 Vera Rubin NVLink576 的外观和参数, 并宣称 Rubin 的性能可达 Hopper 的 900 倍,而 Blackwell 是 Hopper 的 68 倍。
黄仁勋说:“在过去的两到三年里,人工智能取得了重大突破和根本性进展,我们称之为‘agentic AI’,它可以推理如何回答或如何解决问题。”
之后,黄仁勋探讨了英伟达进军以太网领域的原因:基本上,英伟达能够制造高性能以太网解决方案,帮助在超级计算机之间传输数据。黄仁勋发布了 NVIDIA Photonics,这似乎是该公司迄今为止最强大的 Spectrum-X 以太网产品。
在演示中,黄仁勋似乎被搞得一团糟,网友开玩笑道,“搞乱这些电缆的人很可能会被解雇。”
黄仁勋还表示,英伟达继 Rubin 之后的下一代芯片将以物理学家 Richard Feynman 的名字命名。
之后,黄仁勋手里拿着一台 20 千万亿次浮点计算机——DGX Station 登上演讲台并说道“这是人工智能时代的计算机。”
4 开源全球首个人形机器人基础模型 GROOT N12 个小时后,本场发布会的另一个小高潮,是英伟达宣布开源全球首个人形机器人基础模型 GROOT N1。据老黄称,这是世界上第一个开源的、完全可定制的通用人形推理和技能基础模型。
老黄宣称:“机器人的时代已经到来。我们清楚地知道,世界劳动力严重短缺——短缺 5000 万人。” 所以我们对机器人的需求与日俱增。
GR00T N1 现已上市,是英伟达将预训练并发布给全球机器人开发人员的一系列完全可定制模型中的第一个。
黄仁勋表示:“通用机器人时代已经到来。借助 NVIDIA Isaac GR00T N1 以及新的数据生成和机器人学习框架,世界各地的机器人开发人员将开拓 AI 时代的下一个前沿。”
Groot N1 是英伟达 Project Groot 的演进版本,该公司在去年的 GTC 大会上推出了该项目。Project Groot 面向工业用例,但 Groot N1 将重点扩大到各种不同外形的人形机器人。
GR00T N1 基础模型采用双系统架构,灵感来自人类认知原理。“系统 1”是一种快速思考的行动模型,反映了人类的反应或直觉。“系统 2”是一种慢速思考的模型,用于深思熟虑、有条不紊的决策。
在视觉语言模型的支持下,系统 2 可以推理其环境和收到的指令,从而规划行动。然后,系统 1 将这些计划转化为精确、连续的机器人动作。系统 1 接受人类演示数据和 NVIDIA Omniverse 平台生成的大量合成数据的训练。
GR00T N1 可以轻松实现常见任务(例如抓取、用一只或两只手臂移动物体以及将物品从一只手臂转移到另一只手臂),或者执行需要长时间上下文和一般技能组合的多步骤任务。这些功能可应用于物料搬运、包装和检查等用例。
开发人员和研究人员可以使用真实或合成数据对 GR00T N1 进行后期训练,以适应特定的人形机器人或任务。
除了该模型,英伟达还发布了用于生成合成训练数据的模拟框架和蓝图。
此外,老黄还表示,英伟达正与 DeepMind 和 迪士尼研究中心合作开发新平台 Newton,这是一个开源物理引擎,可让机器人学习如何更精确地处理复杂任务。
Newton 基于 NVIDIA Warp 框架构建,将针对机器人学习进行优化,并与 Google DeepMind 的 MuJoCo 和 NVIDIA Isaac Lab 等模拟框架兼容。此外,三家公司还计划让 Newton 使用迪士尼的物理引擎。
5 “AI 将进入每个行业”如今,AI 进入千行百业早已是事实。但是,当全球范围内不同行业在平台、需求以及其他方面存在如此多差异的时候,我们要如何将人工智能推广到全球呢?
黄仁勋指出,背景信息和先验知识可能是实现下一步突破的关键,尤其是在边缘计算领域。
他转向自动驾驶汽车(AV)——这通常是人工智能领域最大的领域之一。他指出,几乎每家自动驾驶汽车公司都在使用英伟达的技术,从特斯拉到 Waymo,从软件到硬件,都试图推动该行业向前发展。
不过今天又有一位新合作伙伴——黄仁勋宣布英伟达将与通用汽车在 AI 领域展开合作。
黄仁勋宣称:“自动驾驶汽车的时代已经到来。”
为此,英伟达宣布推出 NVIDIA Halos,这是一种综合安全系统,将 NVIDIA 的汽车硬件和软件安全解决方案系列与其在 AV 安全领域的尖端 AI 研究结合在一起。
Halos 涵盖芯片、软件、工具和服务,帮助确保从云端到汽车的 AV 安全开发,重点是基于 AI 的端到端 AV 堆栈。
NVIDIA 行业安全副总裁 Riccardo Mariani 表示:“通过推出 Halos,我们让合作伙伴和开发者能够选择他们所需的先进技术元素,打造他们独特的产品,推动共同的使命,打造安全可靠的自动驾驶汽车。Halos 是对现有安全实践的补充,并有可能加速标准化和法规遵从。”
Halos 是一个涵盖三个不同但互补的层面的整体安全系统。
在技术层面,它涵盖平台、算法和生态系统安全。在开发层面,它包括设计时、部署时和验证时防护措施。在计算层面,它涵盖从 AI 训练到部署的整个过程,使用三台强大的计算机——用于 AI 训练的 NVIDIA DGX 、在 NVIDIA OVX 上运行的 NVIDIA
Omniverse 和 NVIDIA Cosmos 用于模拟,以及用于部署的 NVIDIA DRIVE AGX。作为 Halos 的入口点,NVIDIA AI 系统检查实验室可让汽车制造商和开发商验证其产品与英伟达技术的安全集成。
值得注意的是,大会接近结束时,英伟达股价下跌 3%,通用汽车下跌 1.5%。
来源:商财洞察君