全球首个！机器人也有“高德”了，银河通用联合北大研发

机器人前瞻（公众号：robot_pro）
作者 | 许丽思
编辑 | 漠影

机器人前瞻11月5日报道，今天，银河通用联合北京大学、阿德莱德大学、浙江大学等团队，推出了全球首个跨本体全域环视的导航基座大模型——NavFoM（Navigation Foundation Model）。

在今年6月，银河通用发布端到端导航大模型TrackVLA，让机器狗在未训练过的真实场景跟随用户，完成自主移动、避障、转向，并能听懂语音语音指令。而这次发布的NavFoM则是让机器人具备了更强的自主性，在完全未知的环境中自己决定去哪、怎么走。

全球首个！机器人也有“高德”了，银河通用联合北大研发
比如，在执行送甜点的任务时，NavFoM能够让机器狗跟随用户行动，遇到人流密集的情况，自主避开；而当跟随的人员从视线消失后，它可以自主分析寻找。

全球首个！机器人也有“高德”了，银河通用联合北大研发

机器狗支持从跟随模式切换至导航模式，自主规划路线，知道过马路要走斑马线，避开可移动物体，遵守交规；导航让走过街天桥，机器狗也是说一不二，稳妥地完成上楼梯、下楼梯，最终将物品送抵目的地。

全球首个！机器人也有“高德”了，银河通用联合北大研发

一、模型支持适配多种不同本体，让机器人学会自己找路，

NavFoM作为基座大模型，具有以下三大亮点：

全场景：同时支持室内和室外场景，未见过的场景 Zero-Shot 运行，无需建图和额外采集训练数据；

多任务：支持自然语言指令驱动的目标跟随和自主导航等不同细分导航任务；

跨本体：可快速低成本适配机器狗、轮式人形、腿式人形、无人机、甚至汽车等不同尺寸的异构本体。

除此之外，该模型允许开发人员以之为基座，通过后训练，进一步进化成满足特定导航要求的应用模型。

而这背后，是NavFoM重新定义了机器人导航的底层逻辑。过去，导航任务往往被拆分成识别、定位、规划等独立模块，模型之间缺乏统一语言。

NavFoM则建立了一个新的通用范式：“视频流 + 文本指令 → 动作轨迹”。无论是“跟着那个人走”，还是“找到门口的红车”，在 NavFoM 里都是同一种输入输出形式。模型不再依赖模块化拼接，而是端到端地完成“看到—理解—行动”的全过程。

全球首个！机器人也有“高德”了，银河通用联合北大研发

NavFoM通过两项关键技术创新构建统一学习范式，让机器人不仅看得懂、记得住、学得会，还能联合利用不同本体、不同任务和不同场景的数据实现知识共享：

1、TVI Tokens（Temporal-Viewpoint-Indexed Tokens）——让模型理解时间与方向

不同相机、不同角度、不同时间拍到的画面，常常让模型“迷失”。TVI Tokens 就像时间轴与方向罗盘，给每一帧画面加上时间和视角的标记，让模型知道这幅图像来自哪个角度、哪个时刻，从而理解空间的连续变化。它让模型同时兼容单目、环视、无人机等多种视觉输入方式，具备“世界在变化”的时空理解能力。

全球首个！机器人也有“高德”了，银河通用联合北大研发

2、BATS 策略（Budget-Aware Token Sampling）——让模型在算力受限下依然聪明

导航时的视频数据极其庞大，不可能每一帧都处理。BATS 策略像人类的注意力系统，会动态判断哪些画面是“关键帧”，哪些可以略过。越靠近当前时刻、越重要的场景，采样概率越高，从而节省算力又不损失判断准确性。这一机制让 NavFoM，这一7B参数级别的基座模型也能在真实机器人上毫秒级响应，兼顾实时性与精度。

全球首个！机器人也有“高德”了，银河通用联合北大研发