摘要:在机器人技术领域,一项重大突破于近日由智元机器人、上海交通大学与上海人工智能实验室携手实现。他们共同研发的4D世界模型EnerVerse,旨在解决机器人在复杂任务中的动作规划难题,为机器人技术开辟了新的道路。
在机器人技术领域,一项重大突破于近日由智元机器人、上海交通大学与上海人工智能实验室携手实现。他们共同研发的4D世界模型EnerVerse,旨在解决机器人在复杂任务中的动作规划难题,为机器人技术开辟了新的道路。
传统的机器人动作规划方法,在多模态空间(如语言、视觉和动作)之间难以实现精确对齐,同时缺乏大规模、多模态且带有动作标签的数据集。而EnerVerse通过引入自回归扩散模型(autoregressive diffusion),在生成未来具身空间的同时,能够引导机器人完成复杂任务,显著提升了动作规划的性能。
EnerVerse的核心设计包括逐块生成的自回归扩散模型、稀疏记忆机制(Sparse Memory)与自由锚定视角(Free Anchor View, FAV)。其中,自回归扩散模型采用基于时空注意力的UNet结构,通过卷积与双向注意力建模每个空间块内部,并通过单向因果逻辑保持时间一致性,确保生成的序列逻辑合理。稀疏记忆机制则借鉴了大模型的上下文记忆,有效降低了计算开销,同时提升了长程任务的生成能力。而自由锚定视角方法则解决了具身操作中由于遮挡关系复杂,难以构建完美全局视角的问题。
自由锚定视角方法允许根据场景灵活重置锚定视角,避免固定多视角在狭窄空间中的局限性。它使用视线方向图作为视角控制条件,同时将扩散模型中的2D空间注意力扩展为跨视角的3D空间注意力,确保生成的多视角视频在几何上保持一致。通过在仿真数据上微调的4D生成模型与4D高斯泼溅交替迭代,构建了一个数据飞轮,为真实场景下的FAV生成提供伪真值支持。
在EnerVerse架构中,生成网络下游集成了Diffusion策略头,打通了未来空间生成与机器人动作规划的全链条。这一设计使得生成网络在逆扩散的第一步即可输出未来动作序列,无需等待完整的空间生成过程,确保了动作预测的实时性。同时,稀疏记忆队列存储真实或重建的FAV观测结果,有效提升了长程任务规划能力。
实验结果表明,EnerVerse在视频生成、动作规划等方面均表现出卓越的性能。在短程生成任务中,EnerVerse的表现优于现有的微调视频生成模型。而在长程生成任务中,EnerVerse展现出更强的逻辑一致性与连续生成能力,这是现有模型无法比拟的。EnerVerse在LIBERO仿真场景和AgiBot World真实场景中生成的多视角视频质量也得到了充分验证。
在动作规划能力方面,EnerVerse同样表现出色。在LIBERO基准测试中,EnerVerse在机器人动作规划任务中取得了显著优势。其单视角模型在LIBERO四类任务中的平均成功率已超过现有最佳方法,多视角设定更是进一步提升了任务成功率。消融实验也表明,稀疏记忆对长程序列生成的合理性及长程动作预测精度至关重要。
通过可视化Diffusion策略头中的交叉注意力模块,研究发现EnerVerse生成的未来空间与预测的动作空间具有较强的时序一致性。这一发现进一步证明了EnerVerse在未来空间生成与动作规划任务中的优势。
EnerVerse架构的提出,不仅突破了机器人任务规划的技术瓶颈,还为多模态、长程任务的研究提供了全新范式。随着项目的开源推进,EnerVerse有望进一步优化、拓展其应用边界,加速机器人技术从实验室迈向实际应用,为工业制造、物流配送等场景带来更高的生产效率。
来源:ITBear科技资讯