论文标题:JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation论文链接:https://arxiv.org/abs/2509.22548项目主页:https://miv-xjtu.github.io/JanusVLN.github.io/代码地址:https://github.com/MIV-XJTU/JanusVLN摘要:视觉-语言导航(Vision-and-Language Navigation, VLN)作为具身智能的关键任务,要求智能体在未知三维环境中,仅凭自然语言指令与连续视觉输入完成自主导航。近年来,多模态大语言模型(MLLM)显著提升了VLN的语义理解能力,但其普遍
视觉-语言导航(Vision-and-Language Navigation, VLN)作为具身智能的关键任务,要求智能体在未知三维环境中,仅凭自然语言指令与连续视觉输入完成自主导航。近年来,多模态大语言模型(MLLM)显著提升了VLN的语义理解能力,但其普遍依赖的显式记忆机制——如构建文本认知地图或缓存历史图像帧——正成为性能提升的瓶颈。
现有方法面临三大根本性挑战:
空间信息严重失真:文本地图难以精确表达物体间的连续空间关系(如距离、方位),导致关键几何信息永久丢失;计算效率低下:每一步决策需重复编码整个历史观测序列,计算开销随轨迹长度线性增长;记忆无限膨胀:显式记忆规模随导航时长持续扩大,造成信息检索困难与“记忆爆炸”。更深层次的问题在于,当前模型的视觉编码器多源自为二维图文匹配设计的CLIP范式,虽擅长语义理解,却严重忽视RGB图像作为三维世界投影所蕴含的透视、遮挡等丰富几何线索,制约了复杂场景下的空间推理能力。
受人类大脑左右半球分别处理语义与空间信息的启发,我们提出JanusVLN——首个基于双重隐式记忆(Dual Implicit Memory)的VLN框架。该范式将智能体的记忆系统解耦为两个独立、固定大小的紧凑神经表征:
语义记忆:由2D视觉语义编码器(基于Qwen2.5-VL)提取“这是什么”的高层语义;空间几何记忆:由3D空间几何编码器(基于预训练VGGT模型)推断“它在哪里及空间关系如何”的三维结构。二者协同工作,仅需单目RGB视频流输入,即可赋予模型强大的三维空间感知能力,无需依赖深度相机或激光雷达等昂贵传感器。
为彻底解决记忆膨胀与计算冗余问题,JanusVLN设计了一种混合增量更新策略:
初始窗口(Initial Window):永久保留起始若干帧的键值(KV)缓存,作为全局注意力锚点(“Attention Sinks”),维持长时序任务一致性;滑动窗口(Sliding Window):动态缓存最近N帧的KV,确保对近期环境的敏锐感知。该机制将记忆容量固定,每步仅处理当前帧,并通过注意力机制直接复用历史隐式记忆,避免对历史帧的重复计算,推理效率显著提升。
我们在VLN-CE(R2R与RxR)两大权威基准上进行了系统评估:
单目RGB输入下的SOTA性能:在R2R-CE上,成功率(SR)达60.5%,较同类RGB方法(如NaVILA、StreamVLN)提升3.6–10.8个百分点;在更具挑战性的RxR-CE上,SR达56.2%,领先先前方法3.3–30.7个百分点。超越多模态输入方法:仅用单目RGB输入,性能即超越依赖全景图、深度图、里程计等多源数据的先进方法10.5–35.5个百分点。高效推理与强泛化能力:
推理延迟降低69%–90%,且在无额外训练数据情况下仍显著优于使用辅助数据的基线,验证了双重隐式记忆的高效性与泛化性。
在需精细三维理解的任务中(如“停在绿色盆栽旁边而非前方”、“走向最远的黄色凳子”),JanusVLN凭借其空间几何记忆,展现出卓越的环境建模与决策能力,成功完成复杂指令。
JanusVLN通过引入双重隐式神经记忆,首次在VLN中实现语义与空间感知的解耦建模,从根本上突破了显式记忆机制的局限。该框架不仅刷新了VLN领域的SOTA纪录,更推动研究范式从“2D语义主导”迈向“3D空间-语义协同”的新阶段,为构建具备高级空间认知能力的下一代具身智能体奠定了关键技术基础。
来源:极市平台