摘要:在黄仁勋的这场演讲前,英伟达股票还是119.53 美元。刷推的时候又发现,马斯克的 Grok AI 都在和网友们吐槽英伟达今年开年不济,相当艰难,需要一场演讲拯救股市,振奋投资者。还有些直播,直接开了个股市页面实时盯着 NVDA 涨涨停停,画面相当喜感。
作者:王启隆
北京时间 3 月 19 日凌晨,NVIDIA GTC 2025 的主会开场演讲来了!
在黄仁勋的这场演讲前,英伟达股票还是 119.53 美元。刷推的时候又发现,马斯克的 Grok AI 都在和网友们吐槽英伟达今年开年不济,相当艰难,需要一场演讲拯救股市,振奋投资者。还有些直播,直接开了个股市页面实时盯着 NVDA 涨涨停停,画面相当喜感。
两小时的演讲结束后,股价居然还跌了将近 3%……
今年的演讲主题是「AI 工厂」。英伟达创始人兼 CEO 黄仁勋身穿标志性的皮衣,潇洒上台。
顺带一提,看外媒的现场返图,英伟达这次在 GTC 大会会馆前摆了个摊卖煎饼,黄仁勋亲自上阵边吃边卖,里面穿着围裙,外边儿穿着皮衣,真的是坚持皮衣到底。
下面先简单总结演讲的内容有哪些(正好黄仁勋自己在最后强调了一遍本次主会的五大亮点),后文我们再来个“事无巨细”的全面回顾,带大家云体验一遍全程。
Blackwell 全面投入生产
第一代 Blackwell 芯片还没热乎,英伟达就推出了下一代 Blackwell Ultra,旨在提升训练和扩展推理能力。主会上展示了两个版本:
GB300 NVL72:机架级解决方案,集成 72 颗 Blackwell Ultra GPU 和 36 颗 Grace CPU,可视为单一巨型 AI GPU,提升复杂任务分解与 AI 推理能力。
HGX B300 NVL16:高性能服务器单元,相比前代 Hopper GPU,大语言模型推理速度提升 11 倍,算力增加 7 倍,内存容量扩大 4 倍。
目前的落地计划是:
云服务厂商:AWS、谷歌云、微软 Azure、甲骨文云等将率先提供 Blackwell Ultra 实例。
服务器厂商:戴尔、惠普、联想、Supermicro 等计划 2025 年底推出基于 Blackwell Ultra 的 AI 基础设施。
Blackwell Ultra 专为 AI 推理设计,支持预训练、后训练及推理全流程,黄仁勋称其为“AI 推理领域最大飞跃”。
一路规划到 2028 年:Rubin、Rubin Ultra、Feynman
英伟达将延续“一年一旗舰”策略以及“用杰出科学家命名”的传统,2026 年推出以“证实暗物质存在”的女性科学先驱薇拉・鲁宾(Vera Rubin)命名的「Rubin」架构,2027 年更新 Ultra 版本。2028 年推出以知名科学家、美国国家科学院院士,诺贝尔物理学奖获得者理查德·费曼命名的「Feynman」架构。
2026 年下半年将推出 Vera Rubin NVL144;
2027 年下半年再推出 Rubin Ultra NVL576;
老黄表示,Rubin 的性能可以达到 Hopper 的 900 倍,而 Blackwell 又是 Hopper 的 68 倍。
至于费曼,还在新建文件夹阶段。
个人 AI 超级计算机
英伟达推出 DGX Spark,将搭载 GB10 Superchip(精简版 Blackwell),算力达每秒千万亿次,适合模型微调与推理。起售价约 3000 美元。
而这其实就是今年 CES 2025 亮相的那个“迷你超算” Project DIGITS,其设计理念是一个能够运行高端 AI 模型的单元,占用的空间与标准台式机相当。
另一个产品 DGX Station则是上面这个迷你计算机的加强版,黄仁勋称之为“桌面级数据中心”。它搭配 B300 Grace Blackwell Ultra 芯片,784GB 统一内存,支持大规模训练与推理,预计年内由华硕、戴尔等厂商推出。
备战量子计算
今年英伟达很看重量子计算这个风口,今年在波士顿设立加速量子研究中心(NVAQC),基于 GB200 NVL72 硬件,目标是解决量子比特噪声、实验芯片设计等问题,推动量子计算与 AI 融合。彼时,MIT(麻省理工)量子工程团队将利用该中心开发量子纠错技术,预计年内启动。
还有就是,本次 GTC 2025 有一场“量子计算论坛”作为收尾,黄仁勋将对话 14 家企业领袖,侃一侃量子计算相关的话题。这个对标的应该是去年那场“黄仁勋对话 Transformer 七子”的论坛,可见黄仁勋本人的重视程度。
到时候 CSDN AI 科技大本营账号也会跟进这场论坛。
此外,黄仁勋还在主会上宣布了英伟达推出基于硅光子技术的 Spectrum-X 和 Quantum-X 交换机:
Spectrum-X支持 128 端口 800Gb/s 或 512 端口 200Gb/s,能效提升 3.5 倍,信号稳定性提高 63 倍,适合超大规模 GPU 互联。
Quantum-X 是液冷设计,支持 144 端口 800Gb/s InfiniBand,AI 计算网络速度翻倍、扩展性提升 5 倍。
黄仁勋称其将“打破传统网络限制,助力百万 GPU 级 AI 工厂”。
“通用机器人时代已经到来”
演讲尾声,黄仁勋宣布了一堆可以加速人形机器人开发的技术。
首先就是铺垫已久的 NVIDIA Isaac GR00T N1,这是全球首个开放且完全可定制的基础模型,用于通用的人形推理和技能。它还配套了 NVIDIA Isaac GR00T 蓝图技术,用于生成合成数据。
这次正式命名加了个“艾萨克·牛顿”(Isaac Newton)的半个名字进去,致敬了这位广为人知的科学家。
而另外半截名字则用于一个开源物理引擎 Newton——它由 Google DeepMind 和迪士尼研究共同开发,专为开发机器人而设计。
黄仁勋最后强调:“通用机器人时代已经到来,借助 NVIDIA Isaac GR00T N1 和新的数据生成及机器人学习框架,全世界的机器人开发者将开启人工智能时代的下一个前沿。”
紧接着就是最后一个惊喜:英伟达的小机器人 Blue亮相。
从迪士尼制作的动画,再到 DeepMind 提供的 AI 技术,以及英伟达的硬件能力,让这个由 Newton 物理引擎驱动的机器人走进现实。
美国网友觉得它很像《星球大战》里的机器人,个人觉得比较像那个经典电影《瓦力》(WALL·E)。Blue 不是消费产品,所以黄仁勋真的就是叫它出来亮相收个尾的。
接下来,带大家详细回顾这场主会演讲的完整内容:
今年的 GTC 大会在美国加州圣何塞的体育场馆SAP Center 举行,据说原计划是要在圣何塞的另一个会议中心办主会,但由于本次参会人数众多(约 19,000 人),会议中心没法容纳所有观众,所以英伟达只能在 SAP Center 这个体育馆举行——而 GTC 大会的其他部分依旧在会议中心举行。
主会开始前的一小时,英伟达举办了预热直播节目,请了众多企业家轮流到一张桌子前讲讲自己对行业动态的看法,其中也有稍后即将登台演讲的黄仁勋。
老黄哪怕穿着一身围裙,也要外套个皮衣出镜,简直是坚持人设到底。他还端出了一锅煎饼,并聊了聊故事,将自己年轻时与现在的自己进行比较。
老黄和煎饼的故事相当悠久,比如九岁那年他移民到美国的时候,就是在 Denny’s 餐厅里当洗碗工,整天给客人端招牌煎饼和咖啡;后来黄仁勋自己也喜欢上了煎饼,他在 2023 年评价 AI 安全问题还有 2024 年采访扎克伯格的时候都提到了自己吃煎饼的爱好。还有一次对话惠普 CEO,他直接在节目上吃起了饼,并展示了自己吃饼的方式。
时间来到凌晨 1 点 10 分,迟到的主会正式开始。
两大关键词:「token」「AI 工厂」
“去年全世界都搞错了 Scaling Law。大家都以为是法则失效了,但其实是因为推理所需的计算量比去年人们认为的要多 100 倍。”
“计算领域迎来了拐点,AI 的增长正在加速,到 2028 年,数据中心资本支出预计超过 1 万亿美元。”
“何谓 AI 工厂:计算机已经成为了生成 token 的工具,而不是文件检索工具。”
首先是今年 GTC 2025 的官方开幕宣传片:“在 NVIDIA 的世界里,token 是 AI 计算的基本单位。token 不仅能教会机器人如何移动,还能教会它们如何带来快乐……”
这个宣传片想表达的思想其实就是,一个 token 生两个 token,两个token 生三个 token,然后三生万物。“token 连接着所有的点,让生命触手可及,带我们一起迈出下一个伟大的飞跃,前往之前没有人抵达过的地方。”
短片结束,黄仁勋上台,感叹“(2025 是)多么令人惊叹的一年”。
他想要通过人工智能的魔法,请大家来到英伟达总部,然后特意强调了一下他这场演讲“没有任何脚本和提词器”:
这里的彩蛋是背景动画里有个人形机器人想刷工牌进入英伟达总部。暗示了这场演讲最后的爆点。
开讲之前,老黄惯例感谢了一波金主们:从医疗保健、交通到零售……几乎每个行业都有代表。尤其是计算机行业,几乎每一家 IT 大厂都在赞助商列表中。
紧接着又是一个短片,强调「GTC 起源于 GeForce」,纪念这个最初为了玩游戏而生的显卡系列:
接着短片的内容,黄仁勋回忆了当年 G 系列显卡在市场上叱咤风云的时候,然后双手各举一块 RTX 5090 显卡和 RTX 4090 显卡:“你会发现它的体积小了百分之三十。”
这里有句话很精彩:英伟达的 GeForce 系列显卡最大的历史意义是将 CUDA 技术引入世界,然后 CUDA 推动了人工智能的发展,而如今人工智能又反过来彻底革新了计算机图形学,生成式 AI 从根本上改变了计算的方式。
下面这个背景,正是完全基于路径追踪的实时渲染画面:
聊到了 AI,就引入了今天的第一张增长图。
从 2012 年 Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton 三位大神开发的 AlexNet 深度学习神经网络,开始一路发展,才有了最初的感知 AI(Perception AI);再就是 ChatGPT 出来之后,大家熟悉的生成式 AI(Generative AI)诞生;近几年随着对智能体(Agent)的想法成熟,还有推理模型的诞生,又出现了自主式 AI(Agentic AI);最后再往上,就是具身智能和自动驾驶兴起后,开始需求使用运动技能理解现实世界并与之进行交互的模型,即物理 AI(Physical AI)。
黄仁勋说,理解物理世界的能力,将使 AI 进入一个新的时代,使机器人成为可能。和此前的每一个阶段一样,都带来了新的市场机会——然后为 GTC 大会带来更多合作伙伴。
这里他将去年的 GTC 2024 大会比喻为“AI 的第一次现场表演”,也就是 AI 的伍德斯托克音乐节(换成中国比喻就是迷笛音乐节),今年这场大会,则被他描述为AI 的超级碗(换成中国比喻就是春晚)。
所以,是什么因素让 AI 的每一个阶段得以实现呢?看下面这张图:
黄仁勋提到了「三大基础问题」:
1. 数据。
人工智能是一种数据驱动的计算机科学方法,需要数据来学习知识。
2. 训练。
为了训练 AI,我们的最终目标是“希望没有人类参与到训练的循环中”,因为人类在循环中之所以具有根本性的挑战性,也就是寿命时间。我们希望人工智能能够以超人的速度、超实时的速度和无人能及的规模学习。
3. 扩展。
这个问题涉及到我们要怎么找到各种算法,让人工智能随着数据的增多可以变得越来越聪明,而不是数据用完了就停止。
图上就展示了三种扩展:从感知 AI 到生成式 AI 最重要的就是预训练扩展,比如 GPT-3.5;而通过后训练扩展,我们获得了更强的生成式 AI,比如 GPT-4;再之后就是测试时训练扩展,正是这一步让我们有了 OpenAI o1 和 DeepSeek-R1 这样的长思考模型,让 AI 学会了推理。
所以,扩展法则其实从一条,变为了三条。
黄仁勋接下来这句话很经典:“去年,几乎全世界都搞错了扩展法则(Scaling Law)。大家都以为是扩展法则失效了,但其实是因为自主式 AI 的推理所需的计算量比去年人们认为的要多 100 倍。”
现在我们有了能够通过思维链思考和其他技术逐步推理的 AI,但是生成 token 的基本过程并没有改变。这种推理需要更多的 token,且为了保持模型的响应性,每秒所需的计算量同样很高。
所以老黄就给出了解法:合成数据。“强化学习是过去几年的重大突破。给 AI 提供成千上万种不同的例子,让 AI 一步步解决问题,并在它做得更好的时候对其进行奖励(强化)。这意味着要训练该模型需要万亿甚至更多的 token。换句话说:生成合成数据来训练 AI。”
为了证明自己的话,老黄也是直接搬出了数据,表示“计算正在面临巨大的挑战,而行业正在回应这点”。去年 Hopper 芯片(就是我们常说的 H100 那个系列,DeepSeek 用的是 H800)出货量位居云服务提供商之首,属于是 Hopper 系列的一大高峰。然而,与新系列 Blackwell 第一年的对比,则产生了三倍差距:
要知道 Blackwell 其实才刚刚开始发货没多久。
黄仁勋说:“我们早就知道通用计算已经过时了,当然,顺其自然吧,我们需要一种新的计算方法,世界正在经历平台转变。”
然后是今晚第一个爆点:“数据中心建设正朝着加速计算(即使用 GPU 和其他加速器而非仅仅 CPU)的方向出现转折点,计算领域正在出现拐点。到 2028 年,数据中心资本支出预计超过 1 万亿美元。”
最后是这段内容的总结,解释了到底什么是 AI 工厂:“计算机已成为生成令牌的工具,而不是文件检索工具。从基于检索的计算转变为基于生成的计算,从旧的数据中心操作方式转变为构建这些基础设施的新方式。我称它们为 AI 工厂(AI Factory)。”
从 CUDA 到边缘计算和自动驾驶
“我热爱我们所做的工作,更热爱着你们(开发者)用它所开发的一切。”
“自动驾驶的时代已经来临!”
介绍完 AI 工厂的概念后,黄仁勋一转话锋:“虽然数据中心中的一切都将加速,但并非都是人工智能驱动——还需要物理、生物和其他科学领域的框架。”
而这些框架,已经被英伟达作为其 CUDA-X 库的一部分提供。cuLitho 用于计算光刻,cuPynumeric 用于数值计算,Aerial 用于信号处理等。这也是英伟达在更大行业中的“护城河”。
这里黄仁勋还提到,美东时间 20 日(我们的 21 日)将会是英伟达的第一个“量子日”(Quantum Day),其实就是本文前面提到的那个量子计算论坛,黄仁勋会对话许多量子企业的 CEO。
再次进入一段短片:自 CUDA 诞生以来,超过 200 个国家的 600 万开发者使用它并改变了计算方式……开发者们用 CUDA 加速科学发现、重塑行业、赋予机器视觉、学习和推理的能力,而如今,英伟达 Blackwell 比第一代 Cuda GPU 快了五万倍。
短片结束,黄仁勋感谢了各位开发者:“我热爱我们所做的工作,更热爱着你们用它所开发的一切。”
然后就到了大家最喜欢的 AI 话题。
“众所周知人工智能起源于云端,它之所以起源于云端是有充分理由的,因为事实证明人工智能需要基础设施,所谓的「机器学习」顾名思义,需要一台机器来进行科学研究。”
“而云数据中心有基础设施,他们也拥有非凡的计算机科学、非凡的研究、人工智能在云端起飞的完美环境以及 NVIDIA 合作伙伴网络云服务提供商 (CSP),但这并不是人工智能所局限的领域。人工智能将无处不在,我们将以许多不同的方式谈论人工智能。”
“当然,云服务提供商喜欢我们的领先技术,他们喜欢我们拥有完整的堆栈。但现在他们要把 AI 带到整个世界,情况就有些变化了。GPU 云、边缘计算等,都有各自的要求。”
铺垫了那么多,全在讲云,都是为了引出这段:“我们今天宣布,思科、T-Mobile 和英伟达将会在美国构建完整的无线网络堆栈,目标是人工智能的边缘计算。”
但这只是一个行业,人工智能会赋能千行百业。“还有自动驾驶车辆。当年正是 AlexNet 让 NVIDIA 全力投入自动驾驶汽车技术。而现在,他们的技术正在全世界范围内被使用。NVIDIA 为训练、模拟和自动驾驶汽车本身构建计算机,而今天我们还要隆重宣布,英伟达将和通用汽车(GM)合作,共同构建其未来的自动驾驶车队。”
“自动驾驶的时代已经来临!” 这话不知道老黄以前有没有讲过,可能上一个这么说的是马斯克。
大家讨论自动驾驶的时候,最关心的还是安全问题,这也是 NVIDIA 今年在汽车领域工作的关键。如今 NVIDIA 已由第三方对全部 700 万行代码进行了安全性评估,并宣布了芯片到部署的自动驾驶安全系统 NVIDIA Halos:
紧接着再次来到短片环节,这次是关于 NVIDIA 用于创建自动驾驶车辆的技术和方法。数字孪生、强化学习、生成多样化场景等,将全部基于 NVIDIA Cosmos 构建,形成一个训练循环:利用 AI 来创造更多的 AI。
数据中心和下 N 代芯片
“看到这个,你应该倒吸一口凉气。”
“未来当英伟达讨论 NVLink 互联域时,将不再以“GPU 芯片数量”为单位,而是以“GPU 核心裸片(die)数量”为统计标准。”
“每个未来的数据中心都将受到功率限制。我们现在是一个功率受限的行业。”
短片结束,就直接转到了数据中心的话题。
黄仁勋重磅宣布:Blackwell 系列已全面投入生产。
然后舞台上就直接亮真家伙了。老黄首先展示了其合作伙伴提供的各种机架系统。英伟达长期以来一直在研究分布式计算——如何纵向扩展和横向扩展。
由于横向扩展很难,因此英伟达首先通过 HGX 和 8 块 GPU 配置实现了纵向扩展。
然后他举起了 HGX 上的一块 H 系列芯片,并表示它是过去式了:
未来则是需要构建这样的一个 NVL8 系统:
为了超越过去的设计,实现人工智能革命,英伟达必须重新设计 NVLink 系统的工作方式,以进一步扩展。这里老黄很忙,先是展示了 NVLink Switch,展示它应该如何移出机箱,并移到其他机架单元设备上。这个过程应该叫“解耦 NVLink”(Disaggregated NVLInk):
最终得到的结果是可以在一个机架内,提供一个 ExaFLOP。“这是世界上有史以来最极端的扩展。”
来源:人工智能学家