摘要:过去一两年里,真机数据的信仰者和仿真数据的拥趸们吵得不可开交。真机实采价格昂贵、效率低下,成本动辄上亿元;仿真数据面临巨大的 Sim2Real 鸿沟。两者似乎都无法带来涌现,让技术进展陷入卡壳。
“世界模型数据是唯一有望达到 LLM 互联网数据体量与通用性的途径。”
作者丨丁莉
编辑丨陈彩娴
数据一直是具身智能圈子里最头疼的问题之一。
过去一两年里,真机数据的信仰者和仿真数据的拥趸们吵得不可开交。真机实采价格昂贵、效率低下,成本动辄上亿元;仿真数据面临巨大的 Sim2Real 鸿沟。两者似乎都无法带来涌现,让技术进展陷入卡壳。
有人开始探索世界模型。这个在自动驾驶领域先火起来的概念真能救得了具身智能吗?
朱政是其中之一,也是当下从自动驾驶转向具身智能的汹涌大军中的一员。
他是CV(计算机视觉)出身,博士毕业于中科院自动化研究所,随后在清华大学自动化系从事博士后研究。过去十余年间, CV 界科研人员经历了好几个应用风口,先是人脸识别,再之后是自动驾驶。
这也是朱政早期的研究。他在顶会顶刊上发表超过70篇论文,引用超过16000次,曾获得过NIST-FRVT、 COCO、 VOT 等顶级视觉竞赛冠军,开发的 WebFace260M 是全球最大的人脸识别数据集,被500余家科研机构申请使用; BEVDet 是 BEV 感知领域的代表性算法,被多家车企和自动驾驶公司3D感知方案采用,在 KITTI、nuScenes等榜单排名第一。
现在,继自动驾驶和人脸识别之后,CV 界又来到了具身智能的门前。
“在前两个领域,视觉感知始终是重心。但到了具身智能场景,需要频繁地同物理世界交互,因此,重心转移到了解决 action 的能力,这是进化的必然。”朱政认为,人脸识别是一个单点问题,自动驾驶是一个系统问题,而具身智能触及了更本质的问题——改变物理世界。这也是 CV 研究者的终极考验。
如何完成这个转型?朱政找到的切点是世界模型。
作为极佳科技联合创始人、首席科学家,朱政此前已带领团队为多家车企提供基于世界模型的仿真环境,用于测试和优化自动驾驶算法。团队的学术成果 DriveDreamer 也入选了 ECCV 2024 最具影响力论文榜单。
去年开始,他们顺势转战,开始研究具身智能的世界模型。不久前,他们发布了主要基于世界模型数据训练的 VLA —— GigaBrain ,据称应对 Zero-Shot 的任务成功率提升了 50 个百分点。世界模型平台 GigaWorld 也会在本月发布。趁着这波具身智能热潮,极佳科技在半年内连续完成了三轮融资。
今年,世界模型迅速蹿红,在整个圈子中被炒得沸沸扬扬,但围绕它的许多概念业内还未厘清,比如:世界模型是什么?它和 VLA 关系是怎样的?
朱政认为,短期内,世界模型是“驯化” VLA 的容器,能解决后者训练数据不足的致命痛点;但长期来看,二者或许会融为一体,“世界模型是物理世界通用智能最重要的事情,是唯一可能创造出与 LLM 时代互联网数据比肩的数据量的路径。”
01 世界模型会进化成VLA的下一代
AI 科技评论:当下整个行业对世界模型的定义还远远没有收敛,您对世界模型的定义是什么?或者说极佳想做的是哪种世界模型?
朱政:我们关注的是世界模型的本质——对于未来的预测能力。
不同领域对于世界模型的定义的确不太一样。 CV 界主要关注视频生成, RL界则更多关注 agent ,他们的重心是为 agent 提供仿真训练环境。但无论出于哪种目的,都是因为世界模型有对未来的预测能力。
所谓预测能力是指,在给定一个 action 序列的情况下,世界模型可以给出环境的反馈。当然 action 的定义就比较广泛了,可以是文本,比如文生视频;也可以是各种结构化的条件,比如在自动驾驶领域,它可以是 3D 框或者车道线;在具身智能领域,我们更关注的是动作序列。
AI 科技评论:但预测的终极目标也是为了服务 agent ?
朱政:我们把世界模型分成三个阶段。
现阶段主要是用世界模型生成训练数据;下一步会为 agent 提供闭环仿真环境;到最后一阶段,世界模型会进化成 VLA 的下一代。
AI 科技评论:你觉得这三个阶段最终要走完并且成熟需要多长时间?
朱政:现在比较成熟的是用世界模型生成数据,这方面大家已经有一些共识了,据我所知,不仅我们,很多本体公司、具身大脑公司、大厂可能都在探索。到明年如果我们能首先证明这条路径的可行性,大家可能都会跟进。
下面两个阶段会对世界模型的能力会提出更高要求,比如在可控性、物理规律拟合方面做得更好。整个过程大概需要花费 3 到 5 年时间。
AI 科技评论:所以具身智能的成熟和普及也会在这个节点之后出现?
朱政:是的。
AI 科技评论:世界模型应该是一个全局模型还是可定制的垂直模型?
朱政:世界模型表现出来是一个视频生成模型,它需要一个基座模型,这个基座模型可能是个通用场景的,也就是所谓的全局性模型。
但是之后我们会做后训练,结合自动驾驶或具身智能领域的数据让模型更符合具体领域的物理约束和规律。总结来说,前期我们会做一个基模,后期会根据具体任务要求去做定制化的垂直模型。
AI 科技评论:这种轻量化的垂直模型也有助于实现低延迟和高保真?
朱政:为了实现高保真世界模型在低延迟场景下的实时推理,我们目前方案大概有三块。一块是步数蒸馏,另外一块是参数蒸馏,最后是量化部署。
首先通过单步蒸馏将扩散模型的多步去噪压缩至一步,这样可以显著缩短它的推理时长。其次,我们会利用参数蒸馏设计一些端侧运行的小模型,这样就不用全在云端进行,可以在保证生成质量的同时减低计算的开销。最后,我们在侧端部署时会结合混合精度量化、硬件优化做进一步的加速。
现在从量化指标来看,跟我们比较类似的模型是英伟达的 Cosmos ,当然 Cosmos 确实比较大。我们的模型和 Cosmos 相比基本可以实现 10 倍的加速。
02 自动驾驶强调长时序预测,具身智能看重精细操作
AI 科技评论:世界模型这个概念也是从自动驾驶领域火起来的,极佳科技也为很多车企提供服务,自动驾驶领域的世界模型进展到什么阶段了?
朱政:自动驾驶的世界模型在训练数据生成、闭环仿真方面已经比较成熟了,业内有很多研究,现在正处在和 VLA 结合并发展成VLA下一代 的过程中。
我们在 2023 年 9 月做了 DriveDreamer,这在当时应该是第一个真实驾驶场景的世界模型原型。基于这个工作,后来我们又做了一些改进,包括DriveDreamer-2、DriveDreamer4D、ReconDreamer、ReconDreamer++ ,提升了数据生成的质量和可控性,并且引入了生成+重建的范式。
上个月我们又发布了一个新工作,叫做 ReconDreamer-RL,是将重建+生成的世界模型作为强化学习训练的闭环仿真器。
AI 科技评论:自动驾驶也缺数据吗?车在路上跑不是天然会产生大量数据吗?
朱政:我们跟中国很多头部车企接触过,他们会用大量车队花费数年时间采集数据,基本都积累了几亿公里的实采数据。但这些数据中 99% 都是常见情况,比如晴天在路面直行的数据,缺少长尾问题或者 corner case 的数据,比如雨天、雾天、雪天,大卡车、警车、平板挂车,行人鬼探头、车辆突然超车等等。
世界模型的好处是我们可以基于实采数据做数据泛化,让数据分布更加均匀。
AI 科技评论:自动驾驶世界模型目前最大的问题是什么?
朱政:关键问题在于,世界模型的构建比较依赖视频生成技术,视频生成会存在幻觉。我们目前的解决方案是引入重建模型来辅助。也就是3DGS的方式,先进行场景重建,将重建结果喂给视频生成模型,视频生成模型会做修复,修复之后的结果再反馈给重建模型,形成循环。
AI 科技评论:但重建的成本也更高?
朱政:是的。现在重建模型大部分是基于逐场景优化的,所以每做一个场景都需要训练一个重建模型。一家车企一般需要把全国各地发生过人类驾驶员接管、车祸的地方都重建出来,成本非常高。
我们也在跟进一些更前沿的方法,比如用 feed forward (前馈网络)的方式直接生成具备物理属性的 3DGS 资产,它是一个统一的模型,可以用来重建不同的场景,更加自动化,可以加速 3D 世界模型的构建流程。
当然最终趋势应该还是用纯视频生成模型来构建世界模型,但还需要一点时间。
AI 科技评论:极佳后来为什么从自动驾驶切入了具身智能?
朱政:其实从成立之初我们就很关注具身智能,但我们认为自动驾驶是世界模型的一个比较好的切入点。在自动驾驶领域积累了一段时间之后,从去年下半年开始,我们就在重点投入做具身智能世界模型了。
AI 科技评论:自动驾驶和具身智能领域的世界模型有什么差别?
朱政:自动驾驶的世界模型核心在于对交通参与者的动态变化做长时序预测,尤其是高速移动目标,比如车辆变道、行人鬼探头等等,这些场景一般会持续几十秒,而具身智能完成一个抓取动作只需三四秒,即便像叠衣服等复杂任务也不过 10 秒左右。因此,自动驾驶的世界模型必须具备强时序建模能力。
相较之下,具身智能的场景会更依赖精细操作,比如抓取、推拉、装配等,同环境交互频繁,因此对世界模型的几何精度、物理合理性等提出了更高要求。
03 世界模型的本质不能被局限在 4D 里
AI 科技评论:具身智能的世界模型全部是 3D 的吗?
朱政:我们把目前的世界模型分为两种,一种是 3D World Model(3D世界模型),利用 3DGS 技术来辅助进行场景重建;另一种是 Video World Model(视频世界模型),它是 2D 的。
AI 科技评论:未来具身智能的维度有可能会超越当前的维度限制吗?
朱政:从现在的技术进展来看,把世界模型建模成 3D,或者再加一维时间建构成 4D 是最自然的,能够同时反映几何结构和动态变化。这种结构有明确的物理意义,也具备工程可实验性。
但是世界模型的本质肯定不能被局限在 4D 里。世界模型的终极目标是重建世界和理解世界。因此未来可能需要引入超越 4D 的变量,比如力反馈信号、触觉信号等等。这样就可以捕捉那些没有办法通过纯几何+时间描述的规律。
AI 科技评论:刚刚提到,具身智能领域的世界模型对物理合理性提出了更高要求,怎样让世界模型学习物理规律呢?
朱政:同样是两个办法。
对于视频世界模型,需要采用端到端的训练方式,把表观、几何、物理规则隐式编码在扩散模型里,通过大规模 2D 数据进行隐式学习,然后直接从视频里生成未来帧。相当于人类直接通过观察而非交互学习物理规律。
这种方法上限比较高,擅长纹理、光照等的表观建模,但是无法满足一些对空间一致性要求较高的后续任务,比如 SFT 阶段所需要的高保真交互模拟。
对于 3D 世界模型,需要给 3DGS 绑定一些显式的物理属性,比如 Mesh、物质点或者粒子系统。相当于人类通过各种交互去学习物理规律。这种方法对物理规律的拟合更高,还可以支持一些碰撞检测、力传播或动力学建模等。但由于这些绑定仍然依赖逐场景优化,还不能完全自动化。
AI 科技评论:世界模型要如何维护一个持久化的环境记忆?特别是 2D 世界模型的空间一致性较差。
朱政:基本上是两种方式。
第一种是显式的维护,即通过结构化的方式存储环境状态,用来查询更新。
整体流程是,生成模型会输出新视角的内容,作为扩展场景输入,重建模型会把这些结果整合为几何一致的 3D 场景表示,形成一个环境记忆,重建结果再将结果作为先验返回给生成模型,引导后续生成过程中遵循物理和几何约束,之后再提升跨视角或者跨时间的一致性。
第二种是隐式的编码记忆, DeepMind 的 Genie 系列就是一个典型代表。简单来说就是通过编码历史帧的上下文特征,驱动自回归式视频生成,这样就可以在不需要显式建模的前提下实现短期动态预测。
但是它的缺点也比较明显,就是受限于目前的计算资源和序列建模能力,这类方法通常只能在有限时间窗口内维持记忆一致性,比如说几秒钟,难以支持长时间、大规模的环境记忆管理。
未来,我们会探索将RAG 技术引入世界模型架构,构建轻量级的外部特征记忆库。这种机制可以在不显著增加计算开销的前提下,实现对关键环境状态的长期存储与高效检索,从而突破局部记忆窗口的限制。
AI 科技评论:上述各种方法在面对不同场景时要如何选择?
朱政:3D世界模型擅长于做大空间的建模,在移动导航场景比较合适;视频世界模型在操作场景比较合适。
AI 科技评论:所以现在是两种方式融合来做。
朱政:是的,我们会融合两种世界模型的建模方式,完成移动导航+操作的任务。
04 世界模型会丰富数据金字塔的层次
AI 科技评论:刚刚提到生成数据是世界模型的意义之一。您如何看待真机数据?现在很多企业都在做数采,这个路径是对的吗,能带来涌现吗?
朱政:真机数据肯定是最真实的,但是采集周期非常长、成本非常高。
举个例子,π0模型是借助真机采了 1 万个小时的数据。再考虑到本体成本、数采员成本、存储成本,所有花销加起来可能将近 1 亿元。即便是如此高成本训出来的π0在行为、视角、位置等的泛化方面仍然有局限性。
我认为具身智能理解世界不一定要完全依赖真机数据。举个例子,我们人类的小孩肯定不是通过反复试错,比如一定要把杯子摔碎,才能学会“杯子摔了会碎”这个常识,而是先对物理世界有一个基本认知,就可以推理预测结果。
AI 科技评论:与真机数据相对的是仿真数据,世界模型和仿真器有什么区别?
朱政:其实我们可以把世界模型看作是一个对物理规律更加拟合的新一代仿真器,也就是英伟达经常提到的 Sim 2.0。
传统仿真数据最大的问题,也就是我们老生常谈的 Sim to Real 的 gap 还没有得到很好的解决。Sim 1.0 的仿真数据可以给世界模型提供一些条件,而世界模型可以进一步通过生成能力来减少其Sim to Real 的gap,从而可以比较高效率、低成本地生成大量物理比较真实的数据。
AI 科技评论:世界模型的出现会动摇数据金字塔吗?
朱政:我觉得世界模型的出现不会改变金字塔的结构,但可能会增加金字塔,尤其是金字塔中间这一层的丰富程度。
目前大家都在探索各种数据共生的实践。世界模型仍然需要真实数据才能进行泛化,我们也会采用少量真机数据用于后训练,防止模型对生成数据过拟合。
AI 科技评论:那你觉得,世界模型成熟后,合理的数据配比可能是怎样的?
朱政:我们已经做了很多实验,现在我们在训练 VLA 过程中,大概只有 10% 是真机数据,其余 90% 都是世界模型泛化出来的数据。我们还在做一些更激进的实验,准备在明年把这个比例提到 1:100 。
AI 科技评论:借助极佳科技的世界模型,具身智能实际训练表现怎么样?
朱政:拿柔体场景为例,很多传统仿真器基本没有办法很好地处理柔体。我们发现模型在使用世界模型泛化的柔体数据训练后,比之前任务成功率提升了 50% 左右。
在泛化性方面,我们测试了几十种任务,发现模型 Zero-Shot 的成功率从30%提到了 80% 。明年我们会发布 GigaBrain 2.0,希望把成功率提到 90% 左右。
更重要的是数据成本降低了一个量级。我们估测,训练一个比较好的 VLA ,如果全靠真机实采数据,大概需要几千万元。但是采用世界模型只需要 GPU 推理,大概只用花费几百万元的成本。
AI 科技评论:世界模型是为了解决具身智能领域数据匮乏的问题,但构建世界模型所需要的数据同样匮乏,这一问题怎么解决?
朱政:目前训练世界模型主要是用互联网上真实的物理场景视频、多视角 3D 数据。依赖这些数据,我们已经可以初步训练出一个基本能够理解物理规律的世界模型,为 VLA 模型提供多样性的结构合理的数据。
接下来 VLA 需要在真实环境中部署并执行任务,在这个过程中可以不断采集真实的交互数据,包括视觉、力觉、触觉多种模态,反过来又能改进世界模型。
所以世界模型和 VLA 之间是一个相互供给的数据循环状态。
AI 科技评论:依赖世界模型重建物理规则,解决 VLA 泛化能力不足的问题,会不会是为了解决一个难题而去开设一个更难的题?
朱政:短期看可能如此,但长期看,这可能是通往真正泛化智能的必经之路。
目前 VLA 泛化的瓶颈可能在于缺乏对于物理世界的理解。世界模型可以比较好地解决这一点,为模型提供一个模拟器,让 VLA 能预测动作后果,实现跨场景的推理。所以不算是开启了一个更难的道路,而是在解决一个更本质的问题。
AI 科技评论:世界模型是用来“驯化”VLA的容器还是会取代VLA?
朱政:现阶段它是一个“容器”,为 VLA 提供数据和训练场。
但从最终视角来看,世界模型最本质的是预测能力,预测能力本身就是一种 VLA 的表现形式。因此它们未来可能会融为一体,但这需要一个过程。可能过几年大家不会再讨论世界模型和 VLA 的区别,因为它们指代的就是同一件事。
05 世界模型平台+卖解决方案“两条腿”走路
AI 科技评论:去年李飞飞的 World Labs 成立,这和你们在做的事一样吗?
朱政:根据一些公开信息,李飞飞老师的 World Labs主要关注文生和图生 3D 世界,主要聚焦的是内容或娱乐方向,强调艺术的表现力和创造性,跟我们做的事情在技术上是相通的,但落点会不太一样。
AI 科技评论:今年很多初创公司、大厂、科研院所都在做具身大脑,你怎么看?在这样的背景下,具身公司还有没有必要做大脑,会不会被有被资源更多的大厂“平权”的风险?自研本体搭载开源大脑会不会是更快的落地路径?
朱政:本体公司的优势在于,标准化硬件可以采集数据, VLA 在这些数据上训练收敛速度会更快;大厂优势可能在于应用场景更明确,能够跟主营业务结合起来;科研院所的技术积累周期更长。具身大脑初创公司优势更综合。
我觉得目前具身大脑还没到即插即用的程度,存在任务泛化性、跨本体、侧端部署等各种问题,解决不了行业诉求。现阶段本体和大脑开发还是高度耦合的。
AI 科技评论:听到一些小道消息说极佳科技也在做本体。
朱政:是的,我们做本体的出发点比较明确——因为需要在一个标准化的本体上快速迭代世界模型到 VLA 的闭环链路。这样也方便以后把我们的模型推广到客户的其他机器人本体上。
AI 科技评论:之后会考虑卖本体吗?
朱政:其实现在已经接触了一些终端客户,主要是政府实训场、高校科研场景、家庭商业服务场景等等。我们会为他们提供软硬件配套的原型方案,搭载我们的世界模型和 VLA 的方案。预计过几年会向 To C 转变。
AI 科技评论:所以既要像自动驾驶时代一样为行业提供世界模型平台,也要直接面向终端落地,这样“两条腿走路”对初创公司会不会牵扯太多精力?
朱政:我们会分阶段来实施这个战略。
DeepSeek 给了大家一个比较好的样本。我们希望能做具身智能的DeepSeek,当然这个难度会比语言模型复杂很多,尤其在数据方面。但这也是我们最大的优势,我们的短期目标是把具身智能行业的数据成本打下来。
我们认为世界模型是物理世界通用智能最重要的事情,世界模型产生的训练数据在体量和通用性方面,是唯一一个有希望达到大语言模型互联网数据级别的路径。
//
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载! 公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
来源:AI科技评论一点号