銀河通用近日聯合北京大學、阿德萊德大學及浙江大學等科研團隊,正式推出全球首個跨本體全域環視導航基座大模型NavFoM。這一突破性成果標志著具身智能領域從單一任務模型向通用智能基座的跨越,為機器人規模化商業應用奠定關鍵技術基礎。該模型通過統一范式實現多任務、全場景、跨本體的導航能力,使機器人首次具備類似人類的通用方向感知能力。
傳統導航技術長期面臨碎片化困境:不同任務(如跟隨、搜索、駕駛)需獨立開發算法,不同形態機器人(四足、人形、無人機)需單獨訓練模型。這種割裂導致模型訓練效率低下、二次開發成本高昂,嚴重制約商業化進程。NavFoM通過構建"視頻流+文本指令→動作軌跡"的統一范式,將視覺語言導航、目標導航、視覺跟蹤及自動駕駛等任務整合到同一框架,實現跨任務知識遷移與跨本體經驗共享。例如,四足機器人學到的避障策略可遷移至無人機,自動駕駛的路徑規劃能力可反哺室內機器人。
技術實現層面,NavFoM創新采用兩項核心機制:其一,TVI Tokens(時空索引標記)技術為每幀畫面添加時間軸與方向羅盤,使模型理解空間連續變化,兼容單目、環視、無人機等多視角輸入;其二,BATS策略(預算感知標記采樣)模擬人類注意力機制,動態篩選關鍵幀,在7B參數規模下實現毫秒級響應。實驗數據顯示,該模型在VLN-CE、HM3D-OVON等國際基準測試中刷新多項紀錄,尤其在長程導航、復雜地形規劃等任務中展現卓越泛化能力。
訓練數據體系構建是另一關鍵突破。研究團隊構建了包含1200萬條跨任務數據的訓練集,涵蓋八百萬條導航數據(覆蓋視覺語言導航、目標導航、自動駕駛等)及四百萬條開放問答數據。通過視覺特征緩存機制降低計算開銷,使模型在仿真環境中學習后可直接部署于真實機器人。實測中,NavFoM成功驅動四足機器人完成30分鐘以上穩定跟隨、輪式機器人實現室內外混合導航、無人機在復雜地形規劃飛行,甚至支持自動駕駛系統進行路徑推理與避障決策。
基于NavFoM的統一架構,銀河通用同步推出三大應用模型:TrackVLA++實現超長程穩定跟隨,支持室內外復雜地形;UrbanVLA打通第三方地圖軟件,可在城市街道、天橋等環境中自主規劃最優路徑;MM-Nav突破傳統避障極限,首次實現360°無死角厘米級純視覺避障,能精準識別玻璃、細線等透明或細小障礙物。這三個模型共同構建起覆蓋室內到城市、汽車到無人機的完整導航體系,推動具身智能從實驗室走向真實商業場景。
此次技術突破不僅重新定義了機器人導航的底層邏輯,更通過體系化模型能力為具身智能大規模落地提供關鍵支撐。NavFoM與銀河通用此前發布的操作基座大模型GraspVLA、GroceryVLA形成技術閉環,共同支撐起"讓機器人走進千家萬戶、服務千行百業"的商業愿景。從學習特定任務到理解通用知識,這項成果標志著機器人真正獲得"理解空間、適應變化、自主行走"的核心能力,為具身智能發展開辟全新路徑。











