黄仁勋:AI的推理能力是如何产生的,它如何打开物理AI的大门

B站影视 韩国电影 2025-04-10 17:57 2

摘要:在2025年年初CES的开幕演讲中,黄仁勋认为:「机器人技术的ChatGPT时刻即将到来。」他一手推开了物理AI的大门,并表示机器人和智驾是物理AI的两大应用场景。

在2025年年初CES的开幕演讲中,黄仁勋认为:「机器人技术的ChatGPT时刻即将到来。」他一手推开了物理AI的大门,并表示机器人和智驾是物理AI的两大应用场景。

时隔三个月之后,英伟达GTC2025大会在圣何塞开幕。

这三个月间,来自中国的DeepSeek引发了一轮算力泡沫争议。英伟达在这期间迎来了多年来鲜有的一轮股价大跌。

黄仁勋在GTC2025大会上回应了这一争议,他强调:「AI推理阶段的算力需求将呈现百倍级增长,'Scaling Law'法则的应用重心正从模型预训练向后训练环节迁移。」

他说,「由于具身智能和推理的出现,我们现在需要的计算量,比去年这个时候认为的至少要多100倍。」

在这场被称为AI超级碗的发布会上,黄仁勋发布了划时代的NVIDIA Blackwell Ultra GPU架构。

相比于年初黄仁勋在CES开幕演讲中宣称物理AI时代已经来临,在GTC大会上,黄仁勋强调,当下生成式AI正向具备自主决策能力的代理式AI演进,行业正面临复杂任务分解与实时决策的双重挑战。

黄仁勋将人工智能发展总结为四波浪潮:感知式AI——生成式AI——代理式AI——物理式AI。

代理AI类似于AI助理,它可以感知和理解环境的上下文,最核心的能力是它具备推理能力——它可以理解多模态信息,推理如何回答或解决问题,它可以使用工具,访问网站并查看网站的格式、文字和视频,甚至可以播放视频,从网站学习,理解它,利用新获得的知识来执行任务。

推理能力需要逐步分解问题,进行一致性检查,导致token数量大大增加,也需要更快的计算速度。

具备推理能力的AI,在实现对物理世界的理解,能够理解摩擦和惯性,因果关系和物体永久性等概念的AI即是物理AI,这种理解物理世界,三维世界的能力,将推动机器人技术的发展。

但是什么驱动了AI的每一次浪潮,如何在代理AI之后,推动物理AI新浪潮的到来?黄仁勋说这涉及三个基本问题:

第一,如何解决数据问题?在哪里创建训练AI所需的数据?

第二、 如何在没有人类参与的情况下解决训练问题?

第三、如何创建或找到一种算法,使得你提供的资源越多,AI就越智能?

这三个问题涉及AI的本质,即它是如何发生的。

AI作为一种数据驱动的计算机科学方法,它需要大量的数据来学习。现在人类有大量的方法生成数据,历史知识、网络,以及各种感知物理世界的传感器,难的是训练数据和算法。

也就是如何建设一种训练模型来训练数据,即模型架构是什么?需要达到什么样的规模,并保证训练效率。

黄仁勋表示,由于具身智能和推理的出现,现在需要的计算量,比去年同期至少要多100 倍。

相比生成式AI,推理 AI的根本在于逐步分解问题,它不再只是生成一个接一个的token或单词,而是生成一系列代表推理步骤的单词。因此产生的 token 数量大大增加,而为了保证交互效率,10倍的 token 数量需要提升10倍的算力,其综合算力需求很容易达到 100 倍以上。

构建推理 AI,当下已明确的方式是使用一种名为「思维链」的技术,包括「最佳结果」技术、一致性检查和各种路径规划策略。

推理的过程就像一个工厂在生成token。

黄仁勋将这种速度更快,生成token能力更强的的计算中心称之为AI工厂。它从基于检索的计算过渡到基于生成的计算,从旧的数据中心建设方式过渡到一种新的基础设施建设方式:

AI 工厂,只有一项工作,就是生成众多令人难以置信的 token,然后将这些 token 重组为音乐、文字、视频、研究、化学物质或蛋白质。

黄仁勋预言,未来,每个行业、每个拥有工厂的公司都将拥有两个工厂:一个用于制造产品,另一个用于数学计算,也就是用于人工智能(AI):未来会有汽车工厂和汽车AI工厂。

他甚至表示,对于高算力芯片,五年后每一块掩膜、每一次光刻都可以在英伟达的平台上进行处理。

这个AI工厂是一个数据怪兽,它拥有130万亿个晶体管,其中20万亿个用于计算,按照当下人类的能力,这这不是一个可以短期内合理制造的产品。

黄仁勋表示,将如此规模的算力需求,分解成NVIDIA Grace Blackwell NVLink72机架实现纵向扩展。

它实现了极端计算中的终极挑战:推理。

同时英伟达推出了一整套的AI工厂的软件工具:

1、一个开源推理软件NVIDIA Dynamo;

2、一个完全开源的推理模型R1;

3、一个物理AI的操作系统NVIDIA Omniverse;

黄仁勋展示了推理模型R1与一个非推理模型Llama 3的对比,在反应速度、回答的准确性上,显然,R1更智能。

R1可以下载并在任何地方运行,比如DGX Spark、DGX Station,或者OEM厂商制造的任何服务器。也可以在云端运行,将其集成到任何Agentic AI框架中。

这里我们重点说一下物理AI的操作系统Omniverse。

Omniverse推出的时间已有数年之久,原来是为构建数字孪生世界建模的工具,为什么一跃成为物理AI的操作系统?

黄仁勋解释说,英伟达在其中添加了两项技术,其中一项就是在今年CES上发布的NVIDIA Cosmos™ 世界基础模型平台。

使用Omniverse来调节Cosmos,并使用Cosmos来生成无限数量的环境,因而可以创建具有基础性、受人类控制,同时又在系统上无限的数据。

NVIDIA Cosmos™ 是一个帮助开发者为物理 AI 系统大规模构建定制世界模型的平台。从数据整理、训练到定制,它为每个开发阶段提供了开放世界基础模型和工具。Cosmos的主要能力是创建仿真的虚拟环境帮助人形机器人和自动驾驶应用进行训练。

另一项技术是强化学习和可验证的回报。

所谓可验证的回报就是如何让机器人的运动符合物理定律,也就是可验证的物理回报。

英伟达引入了一个令人难以置信的物理引擎Newton。

没错,名字就是那个大名鼎鼎的物理学家牛顿。

这是一个专门为精细的刚性和软体而设计的物理引擎,可以有效地训练触觉反馈、精细运动技能和执行器控制。英伟达通过为其进行GPU加速,以便这些虚拟世界能够以超线性时间、以超实时的方式运行,以达到以极快的速度训练这些AI模型。

这一物理引擎是由DeepMind、迪士尼研究院和NVIDIA联合开发的,它目前已经和谐地集成到机器人专家在世界各地使用的框架Mujoco中。

这两项技术的引入,让Omniverse不再是一个单纯地构建数字孪生世界的工具,而是一套为具身智能打造的操作系统。

英伟达由此成为一家推动推理AI诞生并推动其向物理AI跨越的AI基础设施供应商。

黄仁勋在GTC2025大会上的演讲,构建了一套AI进行的哲学方法论,它通过分析「技术演进—架构创新—产业落地」的现实需求,推动AI从生成式到代理式的进化,并敏锐地捕捉到,AI的发展重心已从数据规模驱动转向系统能力的竞争,这种转变无疑将深刻地重塑AI产业链的价值格局。

而英伟达无疑站在了这条产业链的顶端。

来源:智驾网

相关推荐