鳳凰網科技訊 12月17日,讓人形機器人能夠像人一樣完成裝箱、搬運、推車等移動操作任務,一直是人們對具身智能的期待。近日,來自香港大學、智元AGIBOT、復旦大學和上海創智學院的聯合研究團隊提出了WholeBodyVLA,一種面向真實世界的人形機器人全身 Vision–Language–Action框架。該工作基于智元靈犀X2研究發布,將VLA擴展至雙足人形機器人的全身控制,驗證了其在全身loco-manipulation任務中的可行性。
與原地操作相比,loco-manipulation的難點不在于單一技能,而在于行走與操作必須在同一任務中長期、穩定地協同發生。
據介紹,WholeBodyVLA通過從人類第一視角視頻中學習移動與操作的潛在動作表示,以降低對昂貴機器人遙操作數據的依賴。同時,研究團隊設計了一種面向移動操作的強化學習控制器,通過簡化控制目標來提升運動執行的穩定性。
實驗驗證顯示,該框架使機器人能在不同起始位置走向目標并完成操作,并對場景和物體表現出一部分泛化能力,在干擾地形上也能保持基本的移動方向與平衡。研究團隊表示,該工作為將視覺-語言-動作(VLA)范式擴展至雙足人形機器人全身控制提供了可行路徑。







