摘要：具身人工智能正在成为AI领域的热门方向，而导航能力是智能体在物理环境中生存和完成任务的基础。想象一个智能体既能在室内为你端茶送水，又能在户外巡逻监控，甚至驾驶汽车穿越繁忙的街道——这正是研究者们长期追求的通用导航能力。

具身人工智能正在成为AI领域的热门方向，而导航能力是智能体在物理环境中生存和完成任务的基础。想象一个智能体既能在室内为你端茶送水，又能在户外巡逻监控，甚至驾驶汽车穿越繁忙的街道——这正是研究者们长期追求的通用导航能力。

近日，北京大学团队联合GalBot、中国科学技术大学、北京智源人工智能研究院等多个机构，推出了NavFoM（导航基础模型），首次实现了跨不同机器人形态和任务类型的通用导航能力，无需针对特定任务进行微调，在多个基准测试中取得了最先进或极具竞争力的性能。

论文链接：

项目主页：

通用导航的挑战与现有方法的局限

现有的导航方法大多局限于狭窄的任务领域和特定的机器人形态。例如，一个在室内导航表现优异的模型，可能无法直接应用于无人机或自动驾驶场景。这种局限性源于：

不同机器人的运动机制差异巨大（四足、轮式、飞行等）不同任务的空间尺度迥异（室内几米vs.道路上百米）视觉观察的视角和时间信息难以统一处理

尽管视觉语言模型在开放世界任务中展现出强大的零样本泛化能力，但这些能力尚未在具身导航领域得到充分探索。

NavFoM模型的核心创新

统一的导航任务定义

NavFoM采用统一的框架处理多样化导航任务：移动机器人根据文本指令和从多个相机捕获的图像序列，预测导航轨迹。无论是轮式机器人的2D轨迹还是无人机的3D轨迹，都可在同一框架下处理。

时间-视角指示器（TVI）token

为解决视觉token缺乏视角和时间信息的问题，研究团队创新性地提出了TVI token，它包含：

角度嵌入：使用正弦余弦值表示方位角，确保循环连续性时间嵌入：使用时间步的正弦位置编码基础嵌入：可学习的嵌入，表示视觉token起始点

这种设计使模型能够灵活处理图像问答、视频问答和导航等不同类型的任务。

基于预算的动态调整采样策略（BATS）

在实际部署中，实时视频会产生大量视觉token，增加计算负担。BATS策略受「遗忘曲线」启发，使用基于指数增长的采样概率动态选择关键帧，在有限的token预算下保持稳定的推理速度。

大规模训练数据与高效训练

为训练NavFoM，团队收集了1270万训练样本，包括：

802万导航样本：涵盖视觉语言导航、目标搜索、目标跟踪和自动驾驶476万开放世界问答样本：提供丰富的环境理解知识覆盖多种机器人类型（四足、无人机、轮式和车辆）和任务场景

训练效率方面，团队采用视觉特征缓存机制，将训练时间减少2.9倍，同时显著降低GPU内存使用。

在Coovally 模型训练平台集成 1000+主流模型，为用户提供从训练到部署的一站式解决方案，大幅降低算法选型和工程实现的复杂度。

平台链接：

在实际使用中，开发者还可以借助 Coovally 平台，通过 SSH 协议使用熟悉的工具（如 VS Code、Cursor、WindTerm 等）远程连接 Coovally 云端算力资源，进行实时代码开发与调试，享受本地级操作体验的同时，充分利用平台提供的高性能 GPU 加速训练过程。