近年來,人形機器人技術迎來快速發展期,基于視覺-語言-動作(VLA)模型的系統已能勝任多種家務任務,展現出較強的適應性和可靠性。然而,雙足人形機器人的發展始終面臨一個關鍵障礙:缺乏覆蓋全身動作的高質量演示數據。傳統遠程操作數據收集方式不僅成本高昂,且效率低下,難以滿足家庭環境中多樣化任務的需求。
針對這一難題,浙江大學與西湖大學等機構的研究團隊提出了一項名為TrajBooster的創新方案。該框架通過利用輪式機器人豐富的操作數據,結合軌跡重定向技術,大幅提升了雙足人形機器人的動作學習效率。實驗表明,僅需10分鐘目標機器人的真實數據,即可實現復雜的全身操控任務,顯著增強了機器人的動作空間理解能力和零樣本任務遷移能力。
TrajBooster的核心思路在于將6D末端執行器軌跡(3D位置+3D旋轉)作為與機器人形態無關的通用接口。研究團隊發現,盡管機器人形態各異,但完成任務時末端執行器的運動軌跡具有高度一致性。例如,無論是輪式還是雙足機器人,拿起杯子都需要讓“手”沿相似路徑接近并抓取。基于這一洞察,TrajBooster構建了一個“真實→模擬→真實”的閉環流程:首先從輪式機器人操作數據中提取語言指令、視覺觀察和軌跡;隨后在仿真環境中將這些軌跡轉化為雙足機器人的全身動作;最后用生成的數據預訓練VLA模型,并通過少量真實數據微調即可部署。
為實現軌跡的精準重定向,研究團隊設計了一個分層控制模型。上層采用逆運動學模塊,直接根據目標手腕位姿計算臂部關節角度;下層則通過分層強化學習策略控制腿部和平衡。具體而言,管理者策略負責判斷身體移動方式,如調整軀干高度或基座速度;執行者策略則將這些高階命令轉化為12條腿部關節的具體動作。團隊還開發了“協調在線DAgger”算法,通過梯度下降優化策略,實現了比傳統方法更高效的軌跡跟蹤。
在模型訓練階段,TrajBooster采用了兩階段策略。后預訓練階段將重定向數據與源數據中的語言和視覺觀察組合,構成新的三元組,對預訓練VLA模型進行繼續預訓練,使其初步理解目標機器人的動作空間。后訓練階段則僅需10分鐘真實數據對模型進行微調,彌合模擬與現實之間的差距。這種設計將耗時的動作學習階段轉移至仿真環境,大幅降低了數據收集成本。
實驗在宇樹Unitree G1雙足機器人上驗證了TrajBooster的卓越性能。在“抓取米老鼠”“整理玩具”等任務中,經過后預訓練的模型性能顯著優于直接使用大量真實數據訓練的模型。當目標物體位置發生變化時,經過后預訓練的模型成功率高達80%,而未經過后預訓練的模型則完全無法適應。軌跡分析顯示,未使用后預訓練的模型只能死記硬背訓練軌跡,而經過后預訓練的模型能靈活生成新軌跡以適應新位置。
更令人驚喜的是,經過后預訓練的模型實現了零樣本技能遷移。在真實數據中從未出現的“傳遞水杯”任務中,該模型無需任何額外訓練即可完成,表明從輪式數據中繼承的“遞東西”技能已成功通過軌跡遷移至雙足機器人。這一成果證明了TrajBooster框架的有效性,為解決機器人數據稀缺問題提供了全新思路。