摘要:在机器人操控领域,有个长期困扰研究者的问题:明明在训练场景下能精准完成抓取、折叠等动作,可一旦物体位置稍有变动,比如桌子高了几厘米、目标物挪了一小段距离,机器人就像断了线,成功率直接跳水。
在机器人操控领域,有个长期困扰研究者的问题:明明在训练场景下能精准完成抓取、折叠等动作,可一旦物体位置稍有变动,比如桌子高了几厘米、目标物挪了一小段距离,机器人就像断了线,成功率直接跳水。
近日,来自上海交大、千寻智能、清华大学等研究机构联合研发了一套 State-free Policy 策略(无状态策略),彻底移除机器人依赖的体感状态输入,仅靠视觉观察就能让机器人具备超强空间泛化能力。在真实世界测试中,这种无状态策略将高度泛化成功率从 0% 拉到 85%,水平泛化从 6% 提升至 64%,甚至在叠衬衫、全身操控取瓶子等复杂任务中也表现亮眼。
1► 为什么传统机器人换个位置就失灵?
要理解研究团队的突破,得先明白传统机器人操控的底层逻辑漏洞。
现在主流的机器人视觉运动策略,都遵循视觉+体感双输入模式:视觉负责看环境,体感负责感知自己的身体。比如机械臂关节转了多少度、夹爪当前在空间中的绝对坐标。研究团队原本以为,体感能提供精准的自身状态信息,让控制更稳定,但实际训练中却发现,体感成了甜蜜的负担。
问题出在捷径学习上。当策略同时接收视觉和体感输入时,机器人会不自觉地走懒路:它不认真分析视觉里的物体该怎么抓,而是直接把特定体感状态和固定动作绑定。比如训练时桌子高 80cm,机器人记住当关节角度是 X、夹爪坐标是 Y 时,执行动作 Z 就能抓起笔;可一旦桌子变高到 90cm,原来的体感状态再也没出现过,机器人就彻底懵了,这就是典型的过拟合到训练轨迹,空间泛化能力自然差。
更麻烦的是,要解决这个问题,传统思路要么靠堆数据,要么靠复杂的算法修正,但前者成本极高,后者往往在复杂场景下失效。
2► 两个关键设计,让机器人只靠眼睛就够了
研究团队的核心主张很直接:既然体感是泛化的绊脚石,那不如彻底删掉它,让机器人纯粹靠看做事。但无状态不是瞎尝试,团队给出了两个必须满足的关键条件,缺一不可。
条件 1:用相对动作替代绝对动作,让机器人懂相对位置
传统机器人控制的动作指令,往往是绝对坐标式的,比如把夹爪移动到(X=10cm,Y=20cm,Z=80cm)指定位置。这种指令的问题是,一旦环境变了,原来的坐标就完全失效。
而团队提出的相对末端执行器动作空间(Relative EEF Action Space),相当于把指令改成了相对式。这种设计的妙处在于,机器人不需要知道自己的绝对位置,只需要通过视觉判断自己和目标的相对关系,就能生成正确动作,就像人抓桌上的杯子,不会先算自己手的绝对坐标,而是看杯子在眼前的相对位置,伸手就抓。
实验数据显示,如果用绝对动作空间,机器人在高度泛化测试中成功率全是 0%;而用相对末端执行器动作空间,成功率直接冲到 98.4%。
条件 2:给机器人广角双眼,确保视觉信息无死角
删掉体感后,视觉就成了机器人的唯一信息源,如果摄像头拍不全关键信息,比如夹爪下方的物体没入画,机器人再聪明也没用。
为了应对复杂场景 完整的任务观察由双广角腕式摄像头实现
团队的解决方案是双广角腕部相机,在机械臂末端执行器的上下方,各装一个视野 120°×120° 的广角相机(传统单相机视野只有 87°×58°)。这种设计能覆盖整个工作空间,连夹爪下方的物体、桌子边缘的细节都能拍清楚,实现了团队所说的全任务观测(Full Task Observation)。
对比测试能看出差异:用单相机时,机器人水平泛化成功率只有 26.7%;换成双广角相机后,成功率提升到 58.4%。更意外的是,团队发现去掉头顶的俯拍相机反而更好,因为俯拍相机会受物体绝对位置影响,而腕部相机跟着末端执行器动,始终能保持和目标物的相对视角,避免了视觉信息错位。
真实世界测试:从抓笔到叠衬衫,全场景碾压传统策略
光有理论不够,团队在真实世界里设计了 5 类任务,从简单到复杂全面验证无状态策略的能力,结果可以用降维打击形容。
团队选用2×8 自由度的类人双臂机器人、2×7 自由度的双臂 Arx5 机械臂系统,以及 26 自由度的全尺寸人形机器人来进行验证
基础任务:换个高度/位置,照样抓得准
在抓笔入笔筒、取瓶盖、盖茶杯盖三个基础抓取任务中,传统有状态策略的问题暴露无遗,训练时桌子高 80cm,换成 72cm 或 90cm 后,成功率直接跌到 0%;目标物水平移动 5-10cm,成功率也接近 0。
通过完整的任务观察,无状态策略的空间泛化能力显著优于基于状态的策略
而无状态策略+双广角相机的组合,高度泛化成功率平均达 98%,水平泛化达58%,哪怕笔筒位置挪了,机器人也能通过视觉判断笔和笔筒的相对位置,调整动作完成抓取。
3► 复杂任务:叠衬衫、全身取瓶,难活也能拿下
更能体现实力的是两个高难度任务:
一是叠衬衫。衬衫是软质deformable物体,褶皱、摆放角度都会影响动作,而且传统策略依赖关节角度记忆,一旦机械臂位置稍有偏移就会失败。
但无状态策略靠双广角相机观察布料形态,能自主调整夹爪力度和折叠顺序,水平泛化成功率从18.3%飙升到83.4%。
二是全身操控取瓶。这是个需要躯干、腰部、腿部协同的任务:机器人要开门、取瓶、关门,涉及 26 个自由度(传统机械臂只有 7 个)。
在人形机器人从冰箱拿饮料的过程中,即使冰箱位置发生移动,机器人也能自主适应
传统策略会因躯干绝对位置变化卡壳,而无状态策略仅靠视觉判断冰箱门位置、瓶子在冰箱里的相对坐标,成功率从11.7%提升到78.4%。
4► 不止泛化:还解决了机器人落地的两大痛点
研究团队的成果不止于提升泛化能力,更直击了机器人落地的两个核心难题:数据成本和跨机器人适配。
数据效率:少数据也能训出好策略
传统有状态策略为了避免过拟合,需要收集大量不同位置、不同高度的训练数据,比如抓一个笔,要在 70-90cm 的桌子上各拍几十组样本,成本极高。
在夹笔任务中,获得桌面高度的泛化能力(标准桌高为 80 cm)
而无状态策略因为不依赖轨迹记忆,只需要少量数据就能学好。实验显示:用 50 组训练样本(仅为传统需求的 1/6),无状态策略的成功率仍能保持 60%,而有状态策略直接跌到 0%;即使用 300 组全量数据,有状态策略在 2 个训练周期后的成功率也只有 23%,无状态策略则能达到 87%。
5► 跨机器人适配:换个机械臂,不用从头训
不同机器人的体感空间完全不同:比如A机械臂的关节角度范围是 0-180°,B 机械臂是 0-270°,传统策略换机器人就要重新对齐体感坐标系,甚至从头训练。
无状态策略则彻底摆脱了这个限制,只要新机器人的相机配置(双广角腕部相机)和原机器人一致,只需要微调几百步就能适配。在叠衬衫任务中,从 Arx5 机械臂适配到类人双臂机器人时,无状态策略微调 5000 步成功率就达 70%,而有状态策略要微调 10000 步才到 76.7%。
6► 无状态策略不是万能药 但却给未来指明了新方向
目前无状态策略依然有一定局限性,比如对背景变化敏感,如果把机器人从白色桌子换到黑色桌子,可能需要少量微调,而在双臂任务中,如果一只臂闲置,闲置臂的视觉信息变化可能干扰另一只臂的动作。
不过这些问题都不能阻挡技术的持续突破,研究团队表示,通过无状态策略研究,团队第一次证明了机器人不需要靠感知自己的身体来精准操控,视觉信息本身就足够支撑复杂任务,而且能极大降低落地成本。
更值得关注的是,研究团队的思路可能会改写机器人传感器设计,既然双广角腕部相机就够了,未来的机器人或许可以去掉昂贵的体感传感器、复杂的俯拍相机,进一步降低硬件成本。
从更长远看,研究团队的成果在于重构了机器人操控的逻辑,过去我们总想着给机器人更多精准的自身状态信息,却忽略了过度依赖特定状态会限制泛化能力,而无状态策略告诉我们,让机器人像人一样靠眼睛判断、靠相对位置行动,或许才是实现通用操控的更优路径。
接下来,团队计划进一步优化视觉特征提取,让机器人能应对更复杂的背景变化,同时探索多机器人协同场景下的无状态策略,如果未来一群机器人都能靠视觉自主适配环境,工业流水线、家庭服务等场景的机器人部署成本,可能会迎来量级的下降。
官方页面:
论文地址:
来源:具身智能大讲堂