亞馬遜機器人團隊FAR(Frontier AI for Robotics)近期發布了一項名為OmniRetarget的人形機器人研究成果,引發業界廣泛關注。該系統實現了強化學習策略在復雜環境中的長時程“移-操一體”技能學習,并成功將仿真訓練成果零樣本遷移至實體機器人。
與傳統依賴視覺傳感器的機器人不同,此次展示的足式機器人完全通過算法驅動,在無攝像頭、雷達等感知設備的情況下,完成了搬動4.5公斤重物、攀爬1米高臺、后空翻下落等高難度動作。實驗視頻顯示,該機器人不僅能流暢完成跑酷動作,還可執行搬運箱體、跨越斜坡等實用任務。
技術核心在于創新的交互網格建模方法。研究團隊構建了包含機器人關節、物體接觸點及環境特征的體積結構,通過德勞內四面體化處理保持空間關系。算法每幀求解約束非凸優化問題,在滿足碰撞避免、關節限制等硬約束的同時,最小化拉普拉斯形變能以保留人類示范動作的空間結構。
數據增強策略突破性地實現了單演示多場景應用。通過參數化調整物體位置、形狀及地形特征,系統將單個人類動作示范轉化為多樣化數據集。在機器人-物體交互場景中,算法固定下半身軌跡確保穩定性,同時允許上半身探索新協調模式;面對地形變化時,通過調整平臺高度深度并引入額外約束生成新場景。
強化學習層采用分層控制架構,底層策略將運動學參考軌跡轉化為物理可行動作。訓練過程僅依賴本體感知數據,包括骨盆線速度、關節位置等五類獎勵信號,結合領域隨機化技術提升泛化能力。實驗表明,該方法在保持82.2%基準成功率的同時,通過運動學增強將動作覆蓋范圍擴大79.1%。
對比測試顯示,OmniRetarget在穿透深度、足部滑動等關鍵指標上全面優于PHC、GMR等開源基線。下游策略評估中,其生成的參考動作使任務成功率提升超10%,且在搬箱、攀爬等不同任務中表現穩定。特別在30秒復雜跑酷任務中,機器人精確完成了多階段動作銜接。
該成果出自成立僅七個月的Amazon FAR團隊,其核心成員源自機器人技術公司Covariant。這個由伯克利機器人學習實驗室主任Pieter Abbeel領銜的團隊,包含其弟子Rocky Duan、Tianhao Zhang等知名學者。去年八月,亞馬遜通過技術許可和人才吸納方式完成團隊整合,目前由Rocky Duan擔任研究負責人。
實驗采用OMOMO、LAFAN1等公開數據集驗證,在物體操作精度、地形適應能力等方面取得突破性進展。這種基于交互網格的動作重定向技術,為足式機器人在復雜環境中的自主作業提供了新范式,其高效的數據增強機制更顯著降低了實體訓練成本。











