摘要:简介:在 AI 快速发展的当下,NVIDIA 创始人黄仁勋提出 “物理 AI” 时代已经来临,他预计这将催生超 50 万亿美元规模的行业变革。为推动物理 AI 在机器人领域的应用,NVIDIA 推出一系列举措。其 “三台计算机” 方案,将训练、仿真和推理结合,
以下内容来源于高工人形机器人 ,作者潘敏瑶
“我们正处于一个新时代的开端。”NVIDIA创始人兼CEO黄仁勋说,这个时代的开端正是AI。
在黄仁勋看来,AI就像一个孩子,从感知世界开始,慢慢学会理解和创造。最初,AI只能理解图像、文字和声音,具有了“感知AI”的能力。随后,AI学会了生成文本、图像和声音,步入“生成式AI”阶段。而现在,我们正进入“物理AI”的时代,AI不仅能够理解世界,还能够像人一样进行推理、计划和行动。
这意味着,AI不再局限于虚拟世界,而是开始走向现实世界,并将在机器人、物流、汽车、制造等千行百业成为主流应用。
黄仁勋预计,物理AI将催生超50万亿美元规模的行业变革,涉及1000万家工厂、20万个仓库、未来数十亿计台人形机器人和15亿辆汽车及卡车。
而在这50万亿美元市场中,人形机器人自然是NVIDIA极为关注的一环。相比去年,在年初CES 2025的舞台上,与黄仁勋一起出现的人形机器人阵容已新增5家,扩编到14家,基本涵盖当前市场上各国人形机器人的顶级玩家,这也成为了现场名场面之一。
据高工机器人产业研究所(GGII)分析预测,2024年全球人形机器人市场规模将达10.17亿美元,到2030年全球人形机器人市场规模将达150亿美元,2024-2030年CAGR将超过56%,全球人形机器人销量将从1.19万台增长至60.57万台。
为此,NVIDIA很早就发布了一系列机器人基础模型、数据管线和仿真框架,以加速下一代人形机器人的开发进程。
一直以来,NVIDIA的入局逻辑是“只有当市场存在空白,而且我们确实应该去填补这个空白的时候,我们才会行动。我们不是去抢占市场份额,而是去创造新的市场。”
显然,当黄仁勋预言“通用机器人领域的ChatGPT时刻即将到来”时,我们能感知到,“物理AI”正是NVIDIA的最新“赌注”,机器人是其正在创造的新市场。这不仅昭示着NVIDIA对重新定义机器人的野心,更凸显了其“All in AI”的策略。
开发机器人的先决条件:
三台计算机
生成式AI的突破正在为机器人带来3D感知、控制、技能规划和智能。物理AI则是AI在人形机器人、工厂和其它工业系统设备中的具象化体现,目前尚未达到突破点,这阻碍了机器人、制造、物流等行业的发展。
可喜的是,NVIDIA推出的三台计算机方案,能够将先进的训练、仿真和推理结合在一起,这有利于加速物理AI在各行业的应用。以机器人行业为例:
首先,在一台超级计算机上训练模型。开发者可以在NVIDIA平台上使用NVIDIA NeMo来训练和微调强大的基础和生成式AI模型。
他们还可以利用NVIDIA Project GR00T(一项为人形机器人开发通用基础模型的计划),使人形机器人能够理解自然语言,并通过观察人类动作来模仿动作。
其次,在NVIDIA OVX服务器上运行的NVIDIA Omniverse通过NVIDIA Isaac Sim等应用程序编程接口和框架,为测试和优化物理AI提供了开发平台和仿真环境。
开发者可以使用Isaac Sim来仿真和验证机器人模型,或者生成大量基于物理的合成数据来引导机器人模型的训练。研究人员和开发者还可以使用NVIDIA Isaac Lab——一个开源的机器人学习框架,为机器人强化学习和模仿学习提供动力,帮助加快机器人策略的训练和完善。
最后,训练好的AI模型被部署到运行时计算机上。NVIDIA Jetson Thor机器人计算机专为满足紧凑型板载计算需求而设计。由控制策略、视觉和语言模型组成的模型集合构成了机器人的大脑,并部署在一个节能的板载边缘计算系统上。
NVIDIA机器人与边缘计算副总裁Deepu Talla进一步介绍,用于训练的计算机是构建机器人“大脑”的关键步骤;用于仿真的计算机则是引入了一个“仿真层”,即“数字孪生”,进而实现大规模、快速且安全的条件下运行数千种场景测试,无需受到真实世界时间或成本的限制;用于部署的计算机即操作物理机器人的“大脑”。
Deepu Talla认为,这一循环过程使得机器人技术的进步能够在5年内完成,而不是50年。
而这种方法也解释了为什么机器人技术比自动驾驶更难。对于自动驾驶来说,主要是避免障碍并确保安全,而无需与物理物体交互。而在机器人领域,涉及到的是与物体的接触、碰撞以及复杂的物理交互,这些都更难测试和优化。
在机器人领域,主要的挑战在于“仿真与现实的差距(sim-to-real gap)”,这也是仿真技术长期以来由于精度不足而未被广泛采用的原因。
NVIDIA开发的Omniverse技术则可以加快弥合其间的差距,使仿真成为机器人开发中的一种可行且有效的工具。
“在接下来的5到10年里,我们将在机器人领域看到显著的差异。” Deepu Talla自信地表示。
推进机器人开发的基础:
Cosmos世界基础模型平台
在三台计算机的基础上,NVIDIA在CES 2025上发布了又一新组成部分——世界基础模型平台Cosmos。
黄仁勋认为,机器人如果要在现实世界中执行任务,只具备能理解语言的GPT类模型远远不够,更需要能够“理解物理世界与物理规律”的世界基础模型。
要训练这种世界模型,就需要海量的物理数据,但高质量的物理数据本就是稀缺的。
而要开发通用人形机器人,需要拥有任务泛化能力,当前阻碍人形机器人拥有该能力的最大因素,正是高质量数据的稀缺。
在CES 2025现场与NVIDIA共同展示具身智能相关应用的中国公司之一——银河通用的创始人、CTO王鹤指出,目前没有任何一家人形机器人公司能为用户付费采集数据,且人形机器人数据采集难复制。人形机器人若没有功能,就没有人会购买,哪怕买了,也没有人愿意通过遥控采集数据。因而人形机器人只能冷启动,这是全球人形机器人公司面临的瓶颈问题。
对于机器人而言,最理想的数据采集方式是通过机器人本体直接触达物理世界,这种方式能让机器人准确理解真实的环境。但与自动驾驶汽车可以依赖现有车辆通过传感器收集数据不同,目前机器人的实际应用部署数量还远远不足以产生可比的数据量。其次,机器人学习新技能的效率十分低下。
当前的方法包括使用Apple Vision Pro或动作捕捉套装来记录人类动作的示范。这些方法虽能提供有用的数据,但规模太小,无法完全满足机器人模型的训练需求。
谷歌和特斯拉的数据显示,其采集数据的成本非常高,仅仅13万条数据花费了17个月、16个工程师以及13台机器人,且特斯拉的内部系统设备以及整套数据采集的过程,需要耗费高达百万的成本。
为了解决低成本获得高质量数据问题,很多人开始尝试采用合成数据,包括合成数据方案的拥护者和早期探索者——银河通用,其通过仿真器和渲染引擎,检查合成的场景在物理层面是否正确。
“若场景正确,我们就可以使用并行渲染器将数据渲染出来,并将机器人训练的数据存储下来,最终得到以10亿级别的海量合成数据。”王鹤表示。
Cosmos的出现则被视为能帮助人形机器人企业训练机器人的物理智能。
黄仁勋表示,该模型接受了2000万小时视频的训练,通过生成逼真视频后,再用于机器人训练。一来,训练成本远低于传统数据采集成本。二来,模型可以帮助机器人理解物理世界。
开发者还能通过Omniverse精准构建某一个真实世界的场景,然后将这个场景输出到Cosmos中,从而得到准确的、拟真的仿真合成数据,以供人形机器人训练使用。通过完成“真实场景——仿真环境——动作输出”的闭环,避免了AI生成的“幻觉”。
也就是说,Cosmos提供了一种简单的方法来生成大量基于物理世界的合成数据。
与其它合成数据生成平台不同的是,Cosmos能够理解这个世界,比如它可以理解几何空间、摩擦力和重力,并且压缩“虚拟”与“现实”之间的差距。
当前,使用Cosmos模型的方式,包括视频搜索和理解、基于物理学的照片级真实感的合成数据生成、物理AI模型开发与评估、使用Cosmos和Omniverse生成AI模型所有未来可能实现的结果。
Cosmos模型目前有3款:Nano(约15B),针对实时、低延迟推理和边缘部署进行了优化;Super(34B),用于高性能基线模型;Ultra(约70B):以获得最大的质量和保真度,最适合用于提取定制模型。
黄仁勋认为,世界基础模型是推进机器人和自动驾驶开发的基础,但并非所有开发人员都有培训自己的专业知识和资源。NVIDIA创建Cosmos是为了使物理AI普及化,让每个开发者都能用上通用机器人技术。
对于机器人行业而言,这是一个重要突破,因为它帮助人形机器人解决泛化道路上的最大瓶颈之一“高质量数据稀缺”问题,为人形机器人感知环境创建逼真的环境和感知物体。
据了解,如今已有多家AI和人形机器人公司在使用Cosmos,比如1X使用Cosmos Tokenizer推出了1X World Model Challenge数据集;小鹏汽车将使用Cosmos加快其人形机器人的开发;Hillbot和Skild AI正在使用Cosmos加速其通用机器人的开发。
打破高质量数据稀缺掣肘:
Blueprint与数字孪生
构建了世界基础模型之后,NVIDIA瞄准了人形机器人的“数据”掣肘。
NVIDIA Isaac GR00T Blueprint的出现,旨在帮助开发者通过少量的人类演示,生成大量合成数据,以使用模仿学习来训练他们的人形机器人。
Isaac GR00T Blueprint包含一套用于生成机器人训练数据的完整工作流,这一工作流分为四步:
第一步,借助Apple Vision Pro在数字孪生环境中捕捉人类动作,并将这些动作记录下来作为标准,在仿真环境中让机器人模仿学习。
第二步,将捕捉到的人类示范扩展成更大的合成运动数据集。
第三步,基于Omniverse和Cosmos平台构建的GR00T-Gen工作流,通过域随机化和3D提升两项技术,指数级扩增数据集。
第四步,将这个数据集作为机器人的输入,在Isaac Lab中,教机器人运动和交互。
当前,波士顿动力、Figure等人形机器人公司已经开始采用并展示Isaac GR00T的结果。
在CES 2025上,NVIDIA还发布了4个全新Omniverse Blueprint,使开发人员更容易为物理AI构建基于OpenUSD(通用场景描述)的数字孪生,包括:
1、Mega工业机器人队列数字孪生:由Omniverse Sensor RTX API提供支持,用于在部署到现实世界的设施之前,在数字孪生中大规模开发、测试和优化物理AI和机器人队列。
2、自动驾驶汽车仿真:由Omniverse Sensor RTX API提供支持,使自动驾驶汽车开发人员可以回放驾驶数据,生成新的地面真实数据并执行闭环测试,以加速其开发管道。
3、Omniverse Apple Vision Pro空间流式传输:帮助开发人员创建面向Apple Vision Pro大规模工业数字孪生沉浸式流播的应用程序。
4、面向计算机辅助工程(CAE)的实时数字孪生:基于NVIDIA CUDA-X加速、物理AI和Omniverse库构建的参考工作流,可实现实时物理可视化。
据黄仁勋介绍,当前全球的1000万工厂、近20万个仓库和4000万英里高速公路构成了我们物理世界的计算网络。然而,这个庞大网络中的生产设施和配送中心网络仍然需要手动设计、操作和优化。
在仓储和配送中,操作员面临高度复杂的决策优化问题,目前,先进的仓库和工厂已经开始使用超过数百个自主移动机器人、机械臂和人形机器人与人类协作工作,之间存在诸多复杂的变量和相互依赖性,当前的数字孪生仍然很难实现在这种复杂环境下的分析与处理。
黄仁勋判断,未来,每个工厂都会有一个数字孪生。
而Mega工业机器人队列数字孪生正是为了解决这一痛点,“Mega”意味着“巨大”,想象一下,在一个空间里,假设每个人都是一个机器人,而每个机器人都有自己的大脑,每个机器人的大脑都是独立的,能够自主做出决策。
摄像头和传感器也在此环境中,从而帮助机器人了解环境中发生的事情。我们可以利用Mega在数字化的方式下仿真整个场景。每个机器人的动作,比如在空间中的移动,都会改变环境,使用者需要实时地仿真整个环境。
Mega为企业提供包含NVIDIA加速计算、AI、Isaac和Omniverse技术的参考架构,用于开发和测试数字孪生,测试驱动机器人、视频分析AI agents、设备等的AI驱动机器人大脑,以大规模处理非常复杂的情境。
该蓝图集成了Omniverse Sensor RTX,可让机器人开发者同时渲染来自工厂各类型智能机器人的传感器数据,以进行高保真、大规模的传感器仿真。
借助Mega驱动的数字孪生,包括协调所有机器人活动和传感器数据的世界仿真器,企业可以不断更新设施的机器人大脑,实现智能路线和任务,在物理世界实施前,不断构建和测试新的布局,从而提高运营效率。
如今,国际供应链解决方案公司KION Group和埃森哲正在使用Mega蓝图构建Omniverse数字孪生,用作工业AI机器人大脑的虚拟训练和测试环境,充分利用了智能摄像头、叉车、机器人设备和数字人生成的数据。
拥抱AI应用爆发元年
事实上,NVIDIA在CES 2025现场发布的从最强消费级GPU到“自动驾驶”三件套各类“王炸”级别的创新,都预示着NVIDIA要为机器人行业开启新的可能性。
黄仁勋似乎永远在思考为了5年、10年、15年后应该做什么。他认为,在不久的将来,所有可移动的设备都将通过AI实现机器人化,机器人将依靠物理AI世界基础模型来理解现实世界并与之互动,而汽车将成为最大的AI和机器人产业之一。
黄仁勋还预判,人们生活中还将出现大量的机器人作为人类助手,这位助手可能会以多种形态存在,比如有时候出现在智能眼镜中,有时候在手机里,有时候在智能汽车系统里。无论它以什么形式出现,我们都能与之自然交流。同时,这些机器人会随着我们的生活经历不断成长进化。“这已经是一个确定的未来图景。”黄仁勋表示。
再回到机器人领域,特别是当前人形机器人方面的工作才刚刚起步,包括开发工具、训练系统和人类演示系统等,但随着AI大模型应用将进入早期的全面爆发阶段,黄仁勋相信未来五年内,人形机器人将搭乘各类“时间机器”迎来飞速发展。
来源:人工智能学家