机器人前瞻(公众号:robot_pro)
作者 |  许丽思
编辑 |  漠影

机器人前瞻11月5日报道,今天,银河通用联合北京大学、阿德莱德大学、浙江大学等团队,推出了全球首个跨本体全域环视的导航基座大模型——NavFoM(Navigation Foundation Model)。

在今年6月,银河通用发布端到端导航大模型TrackVLA,让机器狗在未训练过的真实场景跟随用户,完成自主移动、避障、转向,并能听懂语音语音指令。 而这次发布的NavFoM则是让机器人具备了更强的自主性,在完全未知的环境中自己决定去哪、怎么走。

全球首个!机器人也有“高德”了,银河通用联合北大研发
 比如,在执行送甜点的任务时,NavFoM能够让机器狗跟随用户行动,遇到人流密集的情况,自主避开;而当跟随的人员从视线消失后,它可以自主分析寻找。

全球首个!机器人也有“高德”了,银河通用联合北大研发

机器狗支持从跟随模式切换至导航模式,自主规划路线,知道过马路要走斑马线,避开可移动物体,遵守交规;导航让走过街天桥,机器狗也是说一不二,稳妥地完成上楼梯、下楼梯,最终将物品送抵目的地。

全球首个!机器人也有“高德”了,银河通用联合北大研发 全球首个!机器人也有“高德”了,银河通用联合北大研发

一、模型支持适配多种不同本体,让机器人学会自己找路,

NavFoM作为基座大模型,具有以下三大亮点:

全场景:同时支持室内和室外场景,未见过的场景 Zero-Shot 运行,无需建图和额外采集训练数据;

多任务:支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务;

跨本体:可快速低成本适配机器狗、轮式人形、腿式人形、无人机、甚至汽车等不同尺寸的异构本体。

除此之外,该模型允许开发人员以之为基座,通过后训练,进一步进化成满足特定导航要求的应用模型。

而这背后,是NavFoM重新定义了机器人导航的底层逻辑。过去,导航任务往往被拆分成识别、定位、规划等独立模块,模型之间缺乏统一语言。

NavFoM则建立了一个新的通用范式:“视频流 + 文本指令 → 动作轨迹”。无论是“跟着那个人走”,还是“找到门口的红车”,在 NavFoM 里都是同一种输入输出形式。模型不再依赖模块化拼接,而是端到端地完成“看到—理解—行动”的全过程。

全球首个!机器人也有“高德”了,银河通用联合北大研发

NavFoM通过两项关键技术创新构建统一学习范式,让机器人不仅看得懂、记得住、学得会,还能联合利用不同本体、不同任务和不同场景的数据实现知识共享:

1、TVI Tokens(Temporal-Viewpoint-Indexed Tokens)——让模型理解时间与方向

不同相机、不同角度、不同时间拍到的画面,常常让模型“迷失”。TVI Tokens 就像时间轴与方向罗盘,给每一帧画面加上时间和视角的标记,让模型知道这幅图像来自哪个角度、哪个时刻,从而理解空间的连续变化。它让模型同时兼容单目、环视、无人机等多种视觉输入方式,具备“世界在变化”的时空理解能力。

全球首个!机器人也有“高德”了,银河通用联合北大研发

2、BATS 策略(Budget-Aware Token Sampling)——让模型在算力受限下依然聪明

导航时的视频数据极其庞大,不可能每一帧都处理。BATS 策略像人类的注意力系统,会动态判断哪些画面是“关键帧”,哪些可以略过。越靠近当前时刻、越重要的场景,采样概率越高,从而节省算力又不损失判断准确性。这一机制让 NavFoM,这一7B参数级别的基座模型也能在真实机器人上毫秒级响应,兼顾实时性与精度。

全球首个!机器人也有“高德”了,银河通用联合北大研发

▲左为给定 Token 上限,在不同帧数下的采样分布;右为给定视频帧数,在不同Token上限下的采样分布

二、以千万级高质量数据为基础,一个模型驱动所有形态

银河通用构建了一个跨任务数据集:包含八百万条跨任务、跨本体导航数据,覆盖视觉语言导航,目标导航,目标跟踪,自动驾驶,网络导航数据等多种任务;以及四百万条开放问答数据,让模型具备语言与空间之间的语义理解能力,这一训练量约为以往工作的两倍左右。

全球首个!机器人也有“高德”了,银河通用联合北大研发

▲训练数据量对比

为降低训练对硬件的需求并支持更大规模训练,团队还对图像数据采用了视觉特征缓存(cache)机制,从而减少在线计算开销、提升训练效率,这些数据覆盖了四足、人形、轮式、无人机等多种机器人形态。

全球首个!机器人也有“高德”了,银河通用联合北大研发

▲数据预处理

NavFoM 在多个国际公开基准上均达到或刷新 SOTA 水平:在 VLN-CE、HM3D-OVON、NavSim 等任务中表现领先;在目标搜索、视觉语言导航、自动驾驶等任务上均展现强大的跨任务泛化能力。更重要的是,它能在真实机器人上直接部署,无需针对任务微调,只需修改自然语言指令或相机配置即可。

在实测中,NavFoM 能够驱动多种形态机器人执行复杂任务:四足机器人长程自主跟随、轮式机器人室内外混合导航、无人机复杂地形规划飞行、自动驾驶系统的路径推理与避障决策。

三、针对不同场景需求,已发布三个应用模型

以 NavFoM 的统一架构为基石,银河通用针对不同的落地需求,训练并发布了三个的应用模型:

TrackVLA++ :其能力相对于TrackVLA显著升级,能实现 30 分钟以上稳定的长程自主跟随,室内和室外均不在话下、并能适应多种更复杂路况和地形。

全球首个!机器人也有“高德”了,银河通用联合北大研发

UrbanVLA:针对室外场景应用需求,和 第三方地图软件打通,可根据地图指引,自主规划最优路线并行至目的地,在街道、天桥、单元楼等各种环境中穿梭自如。

全球首个!机器人也有“高德”了,银河通用联合北大研发

MM-Nav: 支持 360° 无死角厘米级纯视觉避障,解决了躲避玻璃、细线等难题。

全球首个!机器人也有“高德”了,银河通用联合北大研发

结语:机器人具有方向感,是未来具身智能大规模落地的关键

像 NavFoM 这样的基座模型的出现,让机器人具备理解空间、适应变化、自主行走的能力,是未来具身智能大规模落地的关键。

当机器人能够在陌生街区中找路、在人群中穿行、在复杂空间中预测障碍,拥有了像人类一样的方向感时,就能进一步突破固定场景作业的限制,融入更多核心应用领域,加速人机协同时代的到来。