在科幻電影里,機器人精準執行“幫我拿杯咖啡”或“把衣服晾到陽臺”這類指令的場景屢見不鮮,然而在現實科研中,賦予機器人這樣的高級理解和執行能力,卻一直是科研人員面臨的巨大挑戰。其核心難題,在于機器人具身導航技術存在的現實困境。當前主流的機器人導航方法主要有兩類,但都存在明顯短板。
指令跟蹤導航要求機器人遵循極其詳細的指令,例如“左轉,出門,直行三米”。這種方式的指令依賴度過高,超出了人類自然交互習慣的細節化引導程度。而預定義物體導航則讓機器人尋找某個類別(如“椅子”)的任意實例,卻忽略了具體情境。比如在“我想喝咖啡”的任務中,找到“咖啡機”遠比找到任意一把“椅子”更重要。這兩種方式都存在明顯的“語義鴻溝”,導致機器人無法理解人類高級指令背后的真正意圖,也難以處理“茶室左邊桌子上的水果”這類包含復雜空間關系的任務。在現實世界中,人類指令具有開放、抽象且充滿上下文關聯的特點,這使得現有導航機器人在面對真實、復雜的家居或辦公環境的長視域導航任務時,成功率極低。
為解決上述困境,清華大學聯合北京智源人工智能研究院、中科院自動化所、北京大學等機構,提出了分層框架NavA3,為機器人裝上了“分層導航系統”。該框架的核心思想是將復雜的長距離、開放式導航任務,分解為“全局規劃”和“局部執行”兩個層次,模擬了人類在陌生環境中尋找目標的思維方式。
在全局策略方面,其核心功能是“從高級指令到目標區域的映射”,依托“Reasoning - VLM”與“全局3D場景表示”兩大組件,解決“去哪里找”的問題。機器人首先會通過3D場景構建,將整個環境生成一張立體地圖。具體操作是,用相機拍攝大量RGB照片,再結合LiDAR傳感器(類似“激光眼”)生成密集的3D點云,每個點代表場景中的3D坐標。接著運用特征點匹配算法(如SIFT、ORB)建立幀間對應關系,通過網格重建生成連貫的3D幾何結構,最后標注出“茶室”“會議室”“陽臺”等區域的語義信息。
Reasoning - VLM是全局策略的“決策核心”,它通過結構化提示模板引導指令解析與空間推理。例如面對“獲取咖啡”這類高級指令時,模型會先通過語義分解推斷出核心目標物體(即“咖啡機”),再基于已構建的全局場景,計算目標物體在各個區域的條件概率,篩選出概率最高的目標區域,最后在目標區域的局部邊界內隨機采樣初始航點,為后續的局部策略提供導航起點。通過這一系列操作,機器人的搜索范圍從整個建筑縮小到特定功能區域,導航效率大幅提升。
局部策略聚焦于在目標區域內實現物體精準定位,核心組件為“NaviAfford模型”,解決“具體找哪里”的問題。NaviAfford模型的核心優勢在于“空間感知可供性理解”,這種能力的構建依賴于大規模數據集的訓練。
在數據集構建上,研究團隊從LVIS、Where2Place數據集中篩選出5萬張室內場景圖像,生成100萬個“圖像 - 問答”樣本對,同時將實例分割掩碼轉換為目標檢測格式,并在每個邊界框內采樣5 - 8個代表點,以此提升空間粒度。在可供性標注方面,設計了兩類標注維度,即物體可供性(標注目標物體與參考物體的方向關系,如“沙發前的電視”)與空間可供性(標注滿足任務約束的自由空間,如“壁櫥內可掛衣區域”)。模型架構采用“視覺 - 語言”雙分支結構,其中文本分支負責處理查詢指令,視覺分支對RGB圖像進行編碼,再通過特征映射將視覺信息融入語言模型的嵌入空間,最終輸出精準的目標點坐標,實現目標物體的定位。
為了讓NaviAfford模型具備強大的空間感知能力,研究團隊構建了一個包含100萬份樣本的“空間感知物體可供性”數據集。該數據集不僅告知模型“這是什么物體”,更關鍵的是傳遞了“物體通常如何與其他物體在空間上關聯”的信息,為模型能力奠定基礎。
在嚴格的實驗評估中,NavA3展現出了顯著優勢。研究團隊構建了包含會議室A、會議室B、茶室、工作站、陽臺五個不同場景的基準測試集,每個場景設置10個導航任務,總計50個任務,且每種方法對每個任務均測試10次。結果顯示,NavA3的平均成功率達到66.4%,而此前表現最佳的MapNav方法僅為25.2%。以工作站場景為例,NavA3的成功率高達76%,MapNav卻只有28%;導航誤差方面,NavA3在會議室A的誤差僅1.23米,而MapNav則達到7.21米,這表明NavA3真正做到了“精準定位到目標旁邊”。更有意思的是,GPT - 4o、Claude - 3.5等通用視覺語言模型在這類復雜導航任務中成功率幾乎為零,它們雖能看懂圖片、聽懂指令,卻無法將“指令”與“空間導航”有效結合,而NavA3的分層設計恰好填補了這一空白。
更NavA3框架成功部署在了輪式移動機器人和四足機器人這兩種形態完全不同的機器人平臺上,這證明了該方法的通用性和強大的跨平臺適應能力,為未來的大規模實際應用鋪平了道路。











