讓雙足人形機(jī)器人像人類一樣完成移動(dòng)操作任務(wù),是具身智能領(lǐng)域長(zhǎng)期追求的目標(biāo)。近日,一項(xiàng)突破性研究為這一愿景提供了關(guān)鍵技術(shù)支撐——由多所高校及科研機(jī)構(gòu)組成的聯(lián)合團(tuán)隊(duì),成功開發(fā)出名為WholeBodyVLA的全身視覺-語言-動(dòng)作控制框架,首次將VLA范式擴(kuò)展至人形機(jī)器人全身控制領(lǐng)域。
傳統(tǒng)機(jī)器人控制面臨的核心挑戰(zhàn)在于,移動(dòng)與操作兩大功能往往難以協(xié)同。當(dāng)機(jī)器人需要邊行走邊完成抓取、搬運(yùn)等動(dòng)作時(shí),不僅要保持平衡,還需精準(zhǔn)控制肢體動(dòng)作。研究團(tuán)隊(duì)通過創(chuàng)新設(shè)計(jì),將原本分離的移動(dòng)控制與操作控制整合為統(tǒng)一框架,使機(jī)器人能夠同時(shí)處理行走姿態(tài)調(diào)整與末端執(zhí)行器操作兩大任務(wù)。這一突破解決了雙足機(jī)器人執(zhí)行復(fù)雜任務(wù)時(shí)的關(guān)鍵技術(shù)瓶頸。
該框架的核心創(chuàng)新在于數(shù)據(jù)利用方式的革新。研究團(tuán)隊(duì)摒棄了傳統(tǒng)依賴昂貴機(jī)器人遙操作數(shù)據(jù)的模式,轉(zhuǎn)而從人類第一視角視頻中提取動(dòng)作模式。通過分析人類完成類似任務(wù)時(shí)的視覺觀察、語言指令與肢體動(dòng)作的對(duì)應(yīng)關(guān)系,系統(tǒng)構(gòu)建出移動(dòng)操作的潛在動(dòng)作表示模型。這種數(shù)據(jù)獲取方式不僅降低了研發(fā)成本,更使模型具備更強(qiáng)的場(chǎng)景適應(yīng)能力。
為提升控制穩(wěn)定性,研究團(tuán)隊(duì)開發(fā)了專用強(qiáng)化學(xué)習(xí)控制器。該控制器通過簡(jiǎn)化控制目標(biāo),將復(fù)雜的全身動(dòng)作分解為可優(yōu)化的子任務(wù)模塊。實(shí)驗(yàn)數(shù)據(jù)顯示,搭載該框架的機(jī)器人能在不同起始位置自主規(guī)劃路徑,在完成目標(biāo)操作的同時(shí)保持身體平衡。即使在存在障礙物的地形中,機(jī)器人仍能維持基本移動(dòng)方向,展現(xiàn)出較強(qiáng)的環(huán)境適應(yīng)能力。
技術(shù)驗(yàn)證環(huán)節(jié)設(shè)置了多項(xiàng)挑戰(zhàn)性測(cè)試。在模擬真實(shí)場(chǎng)景的實(shí)驗(yàn)中,機(jī)器人成功完成了從貨架取物、跨障礙運(yùn)輸?shù)街付ㄎ恢梅胖玫娜鞒倘蝿?wù)。更值得關(guān)注的是,系統(tǒng)對(duì)未見過的新物體和場(chǎng)景表現(xiàn)出初步泛化能力,這得益于其基于人類行為模式的學(xué)習(xí)機(jī)制。研究團(tuán)隊(duì)指出,這種類人學(xué)習(xí)方式使機(jī)器人具備更接近人類的操作靈活性。
目前該技術(shù)已實(shí)現(xiàn)基礎(chǔ)功能驗(yàn)證,下一步研究將聚焦于提升操作精度與響應(yīng)速度。團(tuán)隊(duì)計(jì)劃通過優(yōu)化動(dòng)作表示模型,使機(jī)器人能夠理解更復(fù)雜的語言指令,并完成精細(xì)操作任務(wù)。這項(xiàng)研究為雙足機(jī)器人走向?qū)嵱没~出了重要一步,其技術(shù)路徑或?qū)⒊蔀槲磥砣诵螜C(jī)器人開發(fā)的重要參考。











