全球首個(gè)面向真實(shí)物理環(huán)境的大規(guī)模多任務(wù)機(jī)器人操作基準(zhǔn)測(cè)試平臺(tái)RoboChallenge正式亮相。該平臺(tái)由Dexmal原力靈機(jī)與Hugging Face聯(lián)合發(fā)起,旨在為視覺(jué)-語(yǔ)言-動(dòng)作模型(VLAs)提供標(biāo)準(zhǔn)化、可復(fù)現(xiàn)的真實(shí)場(chǎng)景評(píng)估體系,推動(dòng)具身智能技術(shù)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。
針對(duì)機(jī)器人領(lǐng)域長(zhǎng)期存在的評(píng)估難題,RoboChallenge構(gòu)建了開(kāi)放共享的測(cè)試框架。平臺(tái)集成UR5、Franka Panda、Aloha及ARX-5四類主流機(jī)械臂,每臺(tái)設(shè)備配備2-3臺(tái)RGB-D相機(jī),通過(guò)統(tǒng)一軟件棧實(shí)現(xiàn)視覺(jué)系統(tǒng)與機(jī)器人本體的高效協(xié)同。所有硬件均完成數(shù)月真實(shí)任務(wù)驗(yàn)證,確保7×24小時(shí)穩(wěn)定運(yùn)行,為研究者提供可靠的遠(yuǎn)程測(cè)試環(huán)境。
在測(cè)試方法論上,平臺(tái)創(chuàng)新提出"視覺(jué)輸入匹配"技術(shù)。系統(tǒng)從演示數(shù)據(jù)中提取關(guān)鍵幀作為參考圖像,實(shí)時(shí)疊加于測(cè)試畫(huà)面,引導(dǎo)操作人員精確復(fù)現(xiàn)初始場(chǎng)景。這種標(biāo)準(zhǔn)化方案不僅降低人為誤差,其穩(wěn)定性更超越傳統(tǒng)依賴經(jīng)驗(yàn)人員的模式,為大規(guī)模評(píng)測(cè)奠定基礎(chǔ)。測(cè)試集包含約1000條演示數(shù)據(jù),支持基線模型的任務(wù)級(jí)微調(diào)。
作為核心測(cè)試組件的Table30桌面操作基準(zhǔn)集,包含30個(gè)精心設(shè)計(jì)的日常任務(wù)場(chǎng)景。該測(cè)試集從解決方案復(fù)雜度、機(jī)器人構(gòu)型、環(huán)境特征和物體屬性四個(gè)維度構(gòu)建評(píng)估體系,涵蓋精準(zhǔn)抓取、空間推理、多視角協(xié)同、雙臂協(xié)作等12項(xiàng)核心能力。評(píng)分機(jī)制突破傳統(tǒng)二值化判斷,采用進(jìn)度評(píng)分系統(tǒng),對(duì)復(fù)雜任務(wù)認(rèn)可階段性進(jìn)展,對(duì)簡(jiǎn)單任務(wù)優(yōu)化完成效率。
平臺(tái)采用無(wú)容器化服務(wù)架構(gòu),研究者通過(guò)標(biāo)準(zhǔn)化API即可調(diào)用測(cè)試資源,無(wú)需提交模型文件或Docker鏡像。雙向異步控制機(jī)制支持動(dòng)作指令與圖像獲取的分離處理,毫秒級(jí)時(shí)間戳確保多傳感器數(shù)據(jù)同步。智能調(diào)度系統(tǒng)提供任務(wù)狀態(tài)接口,支持模型預(yù)加載與多任務(wù)并行管理,顯著提升測(cè)試效率。
在首輪評(píng)測(cè)中,主流開(kāi)源VLA模型均面臨嚴(yán)峻挑戰(zhàn)。測(cè)試數(shù)據(jù)顯示,即便最先進(jìn)的Pi0.5模型也難以在全部任務(wù)中取得高成功率,充分驗(yàn)證該基準(zhǔn)集的鑒別能力。平臺(tái)要求參與者通過(guò)Hugging Face獲取示范數(shù)據(jù)集,支持通用型(多任務(wù)聯(lián)合訓(xùn)練)和微調(diào)型兩種訓(xùn)練模式,評(píng)估結(jié)果自動(dòng)合并至算法條目排名。
為促進(jìn)技術(shù)共享,RoboChallenge完全開(kāi)放測(cè)試平臺(tái)和中間數(shù)據(jù)。研究者可基于公開(kāi)演示數(shù)據(jù)微調(diào)策略,通過(guò)平臺(tái)API提交模型進(jìn)行遠(yuǎn)程評(píng)測(cè)。評(píng)估結(jié)果包含機(jī)器日志與操作視頻,支持rerun.io可視化分析。平臺(tái)設(shè)立多維度排行榜,定期舉辦挑戰(zhàn)賽和技術(shù)研討會(huì),鼓勵(lì)社區(qū)參與任務(wù)設(shè)計(jì)與標(biāo)準(zhǔn)制定。
目前平臺(tái)已部署云端測(cè)試服務(wù),突破硬件資源限制,實(shí)現(xiàn)"無(wú)機(jī)器人實(shí)驗(yàn)"模式。未來(lái)規(guī)劃包括擴(kuò)展移動(dòng)機(jī)器人和靈巧操作裝置等硬件平臺(tái),增加動(dòng)態(tài)環(huán)境適應(yīng)、長(zhǎng)期規(guī)劃等挑戰(zhàn)性測(cè)試維度,并延伸至力控感知、人機(jī)協(xié)作等評(píng)估方向,持續(xù)推動(dòng)具身智能技術(shù)在真實(shí)場(chǎng)景中的落地應(yīng)用。











