摘要:AI 经历了这样的演变趋势,从预测式 AI 到这一波生成式 AI,再到当下最火的 Agentic AI(代理型AI,能自主决策和操作,比如 Manus),最后步入基于物理世界,由机器人引领的物理 AI(Physical AI)。
去年的GTC,老黄(黄仁勋)称之为“AI 届的伍德斯托克”,在 AI 浪潮里,邀请各家一起狂欢。
今年的GTC,老黄称之为“AI 届的超级碗”:纵使各家竞争激烈,但英伟达出场后,要让在场的每个人都做赢家。
“全世界都错了”
一个字总结老黄前半个小时的演讲:怼。
AI 经历了这样的演变趋势,从预测式 AI 到这一波生成式 AI,再到当下最火的 Agentic AI(代理型AI,能自主决策和操作,比如 Manus),最后步入基于物理世界,由机器人引领的物理 AI(Physical AI)。
但是,“去年,全世界几乎都搞错了。”
对于预训练的 Scaling Law,很多 AI 届的大佬纷纷出来表示已经到头了,继续单纯堆算力、数据和模型参数,对模型性能提升已经趋于瓶颈,未来增长不会像过去那么快,但成本却在指数级增长。
而后 DeepSeek 也证明了非“堆料”而是通过聪明的工程设计和高效的训练方法“精耕细作”的可能性。
但是黄仁勋强调了推理阶段的 Scaling Law才刚开始,回答问题前思考得越多,推理效果就越好,这是一个运算密集的过程。
以让AI来排婚礼宴请席位为例,推理模型(DeepSeek R1 来佐证)消耗的算力是传统大语言模型的 150 倍,token 消耗量也是 20 倍。
除非 AI 发展停留在生成式AI阶段,不向老黄 mapping 的下一个阶段迈进,不然 Scaling Law 就没到头,对于算力和数据需求还在增加。
DeepSeek 让英伟达股价遭到重挫,一夜蒸发 6000 亿美元,到现在也没恢复回去。为了提振市场信息,老黄放出预测:
最近两年只是 AI 浪潮的开始,随着 AI 大模型和推理计算需求激增,数据中心的资本开支会爆发式增长,到 2028 年,整个市场规模突破1万亿美元。而英伟达正是该市场的主导者和核心供应商。
“如果 GTC只留一页 PPT,就是这页。”
PPT 上展示了 CUDA-X(一系列封装为云API 的开发者工具、GPU 加速库和技术)已经应用到了物理仿真、数据科学、计算机辅助工程、深度学习、量子计算、天气模拟、医疗影像、基因测序、决策优化、无线通信、光刻计算、数值计算这些高精尖的科技行业。
英伟达建立的良好的 CUDA 生态帮助 GPU 计算渗透到各行各业,堪称人类科技树的“种子”。
“我们已经抵达计算的临界点——CUDA 让这一切成为可能。”
比如在自动驾驶领域,英伟达宣布了与通用汽车的合作。通用计划采用配备 Blackwell 架构并运行 NVIDIA DriveOS 操作系统的 NVIDIA DRIVE AGX,作为车载硬件来支持未来的高级驾驶辅助系统和车内安全功能。
另外用 Omniverse 训练 AI 制造模型,以优化通用汽车的工厂规划和机器人技术。
老黄颇为骄傲地称,几乎每家自动驾驶汽车公司都用了英伟达的技术,包括软硬件。此外还展示了 Nvidia Halos,一个关于汽车安全的AI解决方案。Nvidia Halos 是由 Omniverse 和 Cosmos 训练出来的,前者负责生成场景,后者负责把车辆放入场景进行高精度物理模拟。
通常,黄仁勋讲述完 AI 世界进展和对其新的理解后,“秀肌肉”开始了。
堆料,狠狠地堆料
首先,老黄展示了正在全面生产中的 Grace Blackwell 架构,它支持高达 1000 万亿次运算每秒(TOPS)的 AI 计算性能,英伟达已经给各大科技巨头做出了定制版,并说“客户需求量难以置信”。
面对是 scale out 还是 scale up的问题,老黄的答案是,“Before you scale out,scale up first."(在你增加数量前,你先把单机性能做上去)
不仅要堆料,而且要狠狠地堆料(Most scale up)。
老黄还切了张 PPT 来说明自己的观点:性能都是为了更好地服务,大规模推理任务是对算力的极端考验。老黄推断,下一代模型需要万亿级的参数量。
英伟达推出了 Blackwell Ultra 芯片,GB300 NVL72 采用机架级设计,连接72块Blackwell Ultra GPU。
根据英伟达官方博客,Blackwell 已经实现了让DeepSeek-R1 打破推理性能的世界纪录。
而GB300 NVL72 的带宽是前代 GB200 的两倍,内存速度是前代的 1.5倍。
在 2022 年的 GTC 上老黄发布了 Hopper 架构,去年发布了 Blackwell 架构。
结果英伟达重新定义了摩尔定律。Blackwell 架构相比 Hopper 架构可将性能提升 25 倍,在推理性能上提升 40 倍,单位计算成本也大幅下降,老黄因此推销道“你买的(BlackWell)越多,你省的(计算成本)越多。”
“当技术发展如此迅猛时……我们希望大家投资在正确的版本上。”说完,老黄调侃自己不是 CEO,是首席营收破坏者 CRD(Chef Revenue Destroyer)。Blackwell Ultra GB300 NVL72 将于 2025 年下半年上市。
英伟达还推出了 AI 工厂操作系统 Dynamo,它基于 Blackwell GPU 和 NVLink 72 互联技术,专门为大规模 AI 训练和推理优化,能让企业能更快、更省电、更智能地运行大模型。
老黄认为,在未来的制造业,工厂将分为造产品的生产线工厂,以及驱动生产线智能化的AI工厂。
随后,他演示了由超级计算机构建的“AI 工厂”,光是电缆长度就接近地球到月球的距离。当然,这还是由 Omniverse 构建的“虚拟版本”,“我们在布局几年后的未来。”老黄说。
刚说到,Blackwell 后浪把前浪 Hopper 拍在沙滩上,下一代芯片架构 Rubin 也来了。
Rubin 能达到每秒 50 千万亿次浮点运算速度,比 Blackwell 芯片速度还高出一倍多。
2026 年将上市的 Vera Rubin NVL 144,由 144 颗 Blackwell GPU 组成,并通过 NVLink 72 互联。
以及 2027 年下半年上市的 Rubin Ultra NVL 576,它有 15 EF(ExaFLOPS)的推理性能,365 TB 内存,4 颗超大 Reticle-Sized(光罩尺寸)GPU…… 总之,这款超算机的性能单位已经超过了我们的常识,它也代表了英伟达在 AI 计算领域的巅峰实力。
老黄也透露,再下一代架构将命名为 Feynman,或许是致敬美国著名物理学家 Richard Feynman,将于 2028 年亮相。
而后,他宣布了点儿近期能拿到的产品:两款个人 AI 电脑,DGX Spark 和 DGX Station。两款电脑都采用了 Blackwell 架构芯片,都能在今年问世。
英伟达开源推理模型 Nvidia Llama Nemotron,它提供 Nano、Super 和 Ultra 三种规模,分别优化用于 PC、边缘设备、单 GPU 和多 GPU 服务器的部署需求。
根据英伟达官方报告,Super 规模的模型具备更强的数学推理、通用推理和代码理解能力,相比 Llama 3.1 和 DeepSeek 67B,尤其在数学和代码编写上展现出明显的领先优势。综合推理能力也比 Llama 3.1 更强,接近 GPT-4o 和 Claude 3.5。
AI工厂里的AI工人
话说,AI 工厂有了,AI 劳动力也得安排上。老黄视角里,貌似并不担心 AI 取代人类,“世界上人类工人严重短缺,缺口有 5000 万!”反而他认为机器人市场潜力巨大。
英伟达推出通用的机器人基础模型 GR00T N1,也是全球首款开源的人形机器人功能模型。
GR00T N1 可以模仿人类认知,能做到反射性动作的“快思考”及推理和规划的“慢思考”,该模型还能用在类人机器人上,能让机器人做到抓取、操作和使用工具。
开发者能用自己的数据对模型进行微调,英伟达希望能让 GR00T N1 引领出“通用机器人时代”。
或许是为了减少人类的恐惧感,一个酷似星球大战里 BD-X 小机器人登上台来,它叫 Blue,和此前我们报道过迪士尼园区里的 BD-X 不一样,它由英伟达最新的 GR00T N1 模型驱动,可以自主行动和互动,比如老黄往地上一指说,“你去那边”,Blue 给了个气愤的小表情就站过去了。
英伟达正在与 DeepMind 和迪士尼研究院合作开发名为 Newton 的机器人平台。
随后,老黄总结了整场发布会,牵着 Blue 下台了。
GTC开始前,市场关注点在,老黄的演讲能否让英伟达股价重回巅峰。Wayve 资本的首席策略师说,“黄仁勋的发言可能会让市场感到些许安慰,他会告诉大家一切进展顺利,前进的车轮不会掉下来。”
适时的“肌肉”亮相,在推理计算上的优势展现,以及在技术路线上的稳定前进,如期而至。
就像工业革命用前进的车轮把马车变成了汽车。在今年演讲的结尾,英伟达用一个三分钟的短片,宣告了他们畅想的未来智能世界。
道路上行驶着自动驾驶汽车,工厂里有着 AI 机器人,人类用数据训练出了最好的网球教练,对 AI 和 GPU 的应用把我们从卧室带入太空,那是一个 GPU 驱动的世界,一切都有英伟达的影子。
本文来自果壳,未经授权不得转载.
来源:果壳