摘要:近日,北京大学联合新加坡国立大学、Sea AI Lab等机构的一篇新论文《Nav - R1: Reasoning and Navigation in Embodied Scenes》,在 embodied AI 领域掀起了波澜。
近日,北京大学联合新加坡国立大学、Sea AI Lab等机构的一篇新论文《Nav - R1: Reasoning and Navigation in Embodied Scenes》,在 embodied AI 领域掀起了波澜。
这项研究提出,机器人不应只“看得见、走得动”,更应具备“看得懂、想得清、走得对”的能力。
在很多传统机器人系统里,导航任务好像不难,输入目标位置或者图像,就能输出一条路径,很多研究者觉得这足以应付大部分场景。
但现实生活中,像在家里、医院、商场这些地方,给机器人下指令,是自然语言。
比如说,让机器人 “从厨房穿过走廊,到沙发旁边的蓝色伞那儿停下”,这短短一句话涉及空间理解、语言解析、目标识别等一堆复杂的子任务。
要是机器人光会 “走”,不会 “想”,那很可能走着走着就偏了,甚至完全找不到北。
为了解决这个问题,Nav - R1 引入了一个关键的东西 —— 结构化推理机制。
研究团队专门构建了一个超大规模的数据集 Nav - CoT - 110K,里面有约 11 万条导航推理轨迹。
每条轨迹都详细记录了指令、视觉输入、候选动作和推理过程。
就好比给机器人提前准备了一个 “思考框架”,让它在正式学习怎么在复杂环境里导航之前,就有了基本的思路,这是应对复杂环境的必备条件。
以往的导航系统,评价任务完成得好不好,一般只看机器人有没有到达目标点。
但在实际使用中,用户更关心机器人的行为是不是合理,走的路径是不是又快又安全。
所以,Nav - R1 在强化学习阶段,精心设计了三种奖励机制,分别是格式规范、语言理解和路径合理性。
机器人不仅要成功抵达终点,在整个行进过程中,还得展现出对任务的深入理解。
比如说,得按照指令要求 “在镜子前等待”,或者 “在右侧的黑椅子旁边停下”,它的行为得符合我们语言里的预期,不只是随便走走,覆盖空间就行。
说到机器人系统,实时性是个绕不开的关键指标。
很多工程人员都担心,给机器人增加推理模块,会不会让它反应变慢呢?
Nav - R1 巧妙地借鉴了认知心理学里的 “双系统理论”,这个理论里,系统一擅长快速决策,系统二擅长深度思考。
决策双系统理论
受此启发,研究团队提出了 Fast - in - Slow 推理范式,让推理系统能快速生成高层决策,运动控制系统稳稳地执行底层动作。
经过在多个实验平台测试,Nav - R1 不仅推理延迟低,而且在路径精度和任务成功率上,把不少基线模型甩在了后面,这说明通过合理的结构设计,真能实现 “脑子快、身体稳” 的协同。
从仿真到现实,一直是 embodied AI 领域最大的拦路虎。
不少模型在 Habitat 等模拟平台上表现得相当出色,可一旦放到真实机器人上,性能就直线下降。
Nav - R1 的研究团队选了 WHEELTEC R550 移动机器人平台,在真实环境里测试任务。
这个平台配备了 Jetson Orin Nano、RGB - D 摄像头和 LiDAR,具备一定的感知和计算能力。
在会议室、走廊、休息区这些真实场景中,Nav - R1 执行了好多组指令,像 “前往左侧的黑色椅子暂停,再前往右前方的蓝色伞前停下”“直行寻找靠墙的键盘”。
测试结果令人惊喜,机器人不但能完成任务,还能在执行过程中,根据环境变化灵活调整,展现出对自然语言超强的理解和执行能力。
对于不少机器人研究者来说,“通用性” 是他们追求的大目标。
Nav - R1 不只是一个普通的导航模型,它更像是一个强大的底层架构,能支持各种各样的扩展任务。
论文里就列举了好多应用方向,比如服务机器人能在家里按我们说的话找东西,医疗助老设备能在医院里按语义导航,增强现实系统里的虚拟助手能根据视觉输入给我们引导,工业机器人能在危险场景里执行复杂的路径规划。
Nav - R1 的结构就像一座桥梁,把自然语言指令、视觉感知、推理逻辑和运动控制都打通了,为这些不同的任务提供了统一的架构支持。
从 “路径规划” 到 “认知导航”,从单纯的 “工具” 变成我们贴心的 “伙伴”,Nav - R1 代表的这条技术路线,说不定会彻底改变我们对 “机器人智能” 的认知。
未来,一个机器人更懂我们、更智能的时代,或许正加速向我们走来。
来源:晓婷医生吖