摘要:当家里的扫地机器人还在为避开拖鞋反复 "纠结" 时,机器人学家们已经在攻克更复杂的难题:如何让机器人像人一样,看几次演示就学会整理餐具、折叠衣物这类精细操作?
当家里的扫地机器人还在为避开拖鞋反复 "纠结" 时,机器人学家们已经在攻克更复杂的难题:如何让机器人像人一样,看几次演示就学会整理餐具、折叠衣物这类精细操作?
近日清华大学与通用人工智能研究院(BIGAI)团队提出的 ControlVLA 框架,给出了令人眼前一亮的答案 —— 在 8 项真实世界任务中,采用星尘智能 Astribot S1机器人测试,仅用 10-20 次人类演示,就能实现 76.7% 的任务成功率,而传统方法要达到相近效果,至少需要 100 次以上演示。
1► 为什么机器人学 "新技能" 这么难?
让机器人掌握新操作,本质上是解决 "数据效率" 与 "泛化能力" 的双重矛盾。过去的方案要么陷入两个极端:
一类是依赖大量仿真数据的 "题海战术"。比如为了让机器人学会抓杯子,工程师要先搭建杯子的 3D 模型,在虚拟环境里生成成千上万种抓取场景。但虚拟与现实的差异(比如杯子表面反光、桌面纹理不同)会让 "仿真高手" 到了真实世界就 "水土不服",这就是业界常说的 "仿真到现实鸿沟"。
另一类是直接用真实数据训练,但成本高得惊人。要让机器人学会叠衣服,可能需要人类重复演示上百次,还要标注衣服的褶皱位置、手部用力角度等细节。更麻烦的是,学会叠 T 恤后,换件衬衫又要重新训练 —— 这种 "过拟合" 问题,让机器人始终无法像人一样触类旁通。
近年来兴起的VLA预训练模型,比如 Google 的 RT-2、OpenAI 的 Octo,试图通过大规模多任务训练打造 "通用机器人大脑"。但这些模型的短板也很明显:要适配具体任务,依然需要大量任务专属数据。就像一个懂多种语言的人,要学会做川菜,还是得看几十遍菜谱才行。
2► ControlVLA 的突破:给预训练模型装 "对象导航仪"
ControlVLA 的核心思路,是给强大的预训练 VLA 模型加装一个 "对象导航仪"—— 通过物体中心表示(Object-centric Representation)精准定位任务关键物体,再用 ControlNet 风格的微调方式,让模型在保留通用能力的同时,快速掌握具体任务细节。
这个过程可以拆解成三个关键步骤:
第一步:用大规模数据练出 "通用操作底子"
团队先在包含 7.6 万段操作数据的 DROID 数据集上,预训练一个基础 VLA 模型。这个模型能处理 RGB 图像、语言指令(比如 "把杯子放到浅色盘子上")和机器人关节状态等多模态信息,就像给机器人打下 "会看、会听、会动" 的基础。
与传统模型不同,这个预训练模型采用扩散 Transformer 架构,能更好地处理操作中的不确定性。比如抓杯子时,可能有从左侧抓、从右侧抓两种有效方式,扩散模型能同时学习这些可能性,而不是像传统模型那样只选 "最优解"。
第二步:给任务 "画重点"—— 提取物体中心特征
要让机器人高效学习,首先得让它知道 "该关注什么"。ControlVLA 用 GroundingDINO(一个能根据语言指令定位物体的模型)和 SAM2(Segment Anything 2,通用分割模型),自动标出任务中的关键物体。
比如 "叠粉色衣服" 任务中,模型会先定位出粉色衣服的位置,生成精细的掩码(Mask),再提取两种关键特征:一是位置特征(衣服在图像中的坐标),用正弦位置编码表示;二是几何特征(衣服的褶皱、边缘形状),用 CNN 网络从掩码中提取。这些特征就像给机器人的操作装上 "瞄准镜",避免它被无关背景(比如桌子上的其他物品)干扰。
第三步:微调 —— 不丢 "老本事",学好 "新技能"
最关键的创新在这里:如何在微调时不破坏预训练模型的通用能力?ControlVLA 借鉴了 ControlNet 的零初始化思路 —— 新增一组键值(KV)投影层,初始权重全部设为 0。
刚开始微调时,这些新增层相当于 "没起作用",模型依然沿用预训练时的操作逻辑,保证基础能力不丢失。随着训练推进,模型会根据任务数据,逐渐调整这些投影层的权重,将物体中心特征融入决策过程。
这种方式避免了传统微调中 "越调越专、越调越笨" 的问题。比如预训练模型原本会抓各种杯子,微调后学会抓特定绿色杯子的同时,依然能抓其他颜色的杯子。
3► 真实世界测试:8 项任务验证 "少样本能力"
团队在 8 项真实世界任务中测试 ControlVLA,涵盖了不同类型的操作挑战:
•刚性物体操作:比如把剪刀从笔筒放到蓝色篮子里(OrganizeScissors)
•柔性物体操作:比如把绿色玩具放进蓝色碗里(OrganizeToy)
•复杂结构操作:比如打开黑色把手的柜子(OpenCabinet)
•变形物体操作:比如折叠粉色衣服的袖子(FoldClothes)
•流体类操作:比如把绿色杯子里的方块倒进蓝色盒子(PourCubes)
•长程任务:比如把茄子、草莓、胡萝卜放进编织篮(OrganizeMultiObjs)
测试结果相当亮眼:
在 6 项短程任务中,ControlVLA 平均成功率达到 76.7%,而最强的基线模型 Diffusion Policy 仅为 20.8%。即使是最精细的 "整理剪刀" 任务,ControlVLA 也能达到 70% 以上的成功率,而传统模型要么抓不到剪刀,要么把剪刀丢到篮子外面。
在两项长程任务中,ControlVLA 的优势更明显。比如 "打开抽屉 - 拿出面包 - 放入胡萝卜" 任务,需要机器人完成三个连续步骤,传统模型很容易在某个步骤出错(比如打不开抽屉,或者拿面包时把胡萝卜碰掉),成功率只有 6.7%-23.3%,而 ControlVLA 的成功率达到 63.3%。
更重要的是数据效率:ControlVLA 在 "整理玩具" 任务中,用 20 次演示就达到 80% 的成功率,而传统模型即使用到 100 次演示,成功率也没超过 60%。
这意味着未来部署机器人时,不需要工程师反复演示,普通人用手机拍几次操作视频,机器人就能学会。
4► 还能应对 "意外情况"—— 泛化能力测试
机器人在真实世界遇到的情况,不可能和训练时完全一样。团队特意测试了 ControlVLA 对未知物体和背景的适应能力:
•未知物体:用绿色玩具训练后,让机器人整理面包、香蕉、橙子,成功率仍有 70%
•未知背景:把训练时的纯色桌面换成花纹桌布,成功率保持在 60%
虽然这些结果比在熟悉环境中的 90% 成功率低,但已经远超传统模型 —— 传统模型遇到新物体或新背景,成功率往往会暴跌到 10% 以下。这说明 ControlVLA 学到的不是 "死记硬背" 的操作步骤,而是基于物体特征的通用操作逻辑。
5► 结语与未来:
ControlVLA 目前还存在一些局限:比如只在单臂机器人上测试,任务也集中在受控的室内环境。未来团队计划向两个方向推进:
一是扩展到双臂操作。很多家庭任务(比如拧瓶盖、叠被子)需要两只手配合,这就需要模型处理更复杂的物体交互和动作协调。
二是走向复杂环境。实验室里的光照、物体摆放都比较规整,而家里可能有昏暗的灯光、杂乱的桌面,这需要模型进一步提升对复杂环境的适应能力。
不过,ControlVLA 已经展示出明确的应用潜力。比如在家庭场景中,未来用户只需要给机器人看几次 "把碗放进洗碗机" 的演示,机器人就能自主完成操作;在工厂里,工人演示几次装配步骤,机器人就能快速上手,不需要工程师编写复杂的控制程序。
这种 "少样本学习" 能力,正在让机器人从 "专用工具" 向 "通用助手" 转变。或许用不了多久,我们就能看到能灵活应对各种家务的机器人,真正走进普通家庭。
论文地址:
来源:具身智能大讲堂