在機(jī)器人技術(shù)飛速發(fā)展的今天,訓(xùn)練數(shù)據(jù)的數(shù)量與質(zhì)量已成為制約行業(yè)突破的關(guān)鍵瓶頸。華沙大學(xué)帕維爾·布齊亞諾夫斯基教授團(tuán)隊(duì)聯(lián)合IDEAS研究所、Simple Automation公司及波茲南理工大學(xué)專家,開發(fā)出全球首個(gè)開源機(jī)器人數(shù)據(jù)質(zhì)量評(píng)估系統(tǒng)OpenGVL,該成果在2025年機(jī)器人學(xué)習(xí)會(huì)議(CoRL 2025)發(fā)表,論文編號(hào)arXiv:2509.17321v2,為破解"數(shù)據(jù)荒"難題提供了創(chuàng)新解決方案。
研究團(tuán)隊(duì)通過分析Hugging Face平臺(tái)超1.3萬個(gè)機(jī)器人數(shù)據(jù)集發(fā)現(xiàn),當(dāng)前數(shù)據(jù)存在三大頑疾:32%的數(shù)據(jù)集存在任務(wù)定義模糊問題,如"將物品放入容器"未明確容器類型與放置標(biāo)準(zhǔn);27%的數(shù)據(jù)標(biāo)注存在歧義,例如"移動(dòng)物體至指定位置"未定義"指定位置"的判定標(biāo)準(zhǔn);更有15%的數(shù)據(jù)集混入失敗操作樣本,這些低質(zhì)量數(shù)據(jù)嚴(yán)重影響模型訓(xùn)練效果。傳統(tǒng)人工篩選方式效率低下,單個(gè)數(shù)據(jù)集審核需耗費(fèi)專業(yè)人員40小時(shí)以上。
OpenGVL的核心創(chuàng)新在于突破性應(yīng)用視覺語言模型的"時(shí)間感知"能力。該系統(tǒng)通過分析機(jī)器人操作視頻幀序列,無需針對(duì)特定任務(wù)訓(xùn)練即可判斷任務(wù)完成度。實(shí)驗(yàn)顯示,在"開門"任務(wù)中,系統(tǒng)能準(zhǔn)確識(shí)別手臂伸展(25%完成度)、抓握把手(50%)、轉(zhuǎn)動(dòng)門鎖(75%)等關(guān)鍵節(jié)點(diǎn)。研究團(tuán)隊(duì)采用幀序亂序測試法驗(yàn)證模型理解力,當(dāng)視頻幀順序被打亂后,系統(tǒng)仍能通過動(dòng)作邏輯推斷正確時(shí)間順序,準(zhǔn)確率達(dá)92%。
在模型性能對(duì)比測試中,研究團(tuán)隊(duì)發(fā)現(xiàn)開源與商業(yè)模型存在顯著能力差距。參數(shù)量達(dá)270億的Gemma-3模型在時(shí)間預(yù)測任務(wù)中得分僅為GPT-4o的63%,Qwen2.5-VL-32B模型表現(xiàn)相當(dāng)于Gemini-2.5-Pro的71%。但專項(xiàng)優(yōu)化模型表現(xiàn)突出,GLM-4.1V-9B-Thinking在精密裝配任務(wù)中預(yù)測準(zhǔn)確率達(dá)81%,超越多數(shù)通用商業(yè)模型。這表明通過架構(gòu)優(yōu)化和訓(xùn)練策略改進(jìn),開源模型完全可能實(shí)現(xiàn)性能躍升。
為驗(yàn)證系統(tǒng)實(shí)用性,研究團(tuán)隊(duì)對(duì)Hugging Face平臺(tái)260萬個(gè)操作片段進(jìn)行全面體檢。在Rorschach4153/so101_60_new數(shù)據(jù)集中,系統(tǒng)精準(zhǔn)定位出第93幀存在的異常操作——機(jī)械臂在抓取過程中意外碰撞工作臺(tái),該樣本導(dǎo)致后續(xù)12幀數(shù)據(jù)失效。這種異常檢測能力使數(shù)據(jù)清洗效率提升15倍,單個(gè)數(shù)據(jù)集處理時(shí)間從40小時(shí)縮短至2.5小時(shí)。
研究特別設(shè)計(jì)兩個(gè)保密測試任務(wù)驗(yàn)證模型泛化能力:一個(gè)是人類專家完成的電子元件亞毫米級(jí)裝配,另一個(gè)是雙7自由度機(jī)械臂協(xié)同的精密操作。零樣本測試中,多數(shù)模型預(yù)測準(zhǔn)確率接近隨機(jī)水平(25%);提供兩個(gè)示范樣本后,僅GLM-4.1V-9B-Thinking和MiMo-VL-7B-RL-2508兩款模型準(zhǔn)確率突破60%。這暴露出當(dāng)前模型在復(fù)雜時(shí)空推理方面的重大缺陷。
為推動(dòng)行業(yè)標(biāo)準(zhǔn)化,研究團(tuán)隊(duì)創(chuàng)建開放式評(píng)估平臺(tái),提供包含52種機(jī)器人任務(wù)的基準(zhǔn)測試集。平臺(tái)支持研究者上傳自定義數(shù)據(jù)集,自動(dòng)生成質(zhì)量報(bào)告并對(duì)比模型性能。上線三個(gè)月來,已有來自23個(gè)國家的87個(gè)研究團(tuán)隊(duì)使用該平臺(tái),累計(jì)完成1200次模型測試,促進(jìn)形成國際通用的數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)。
在精密裝配任務(wù)測試中,系統(tǒng)展現(xiàn)出獨(dú)特的三維缺陷檢測能力。當(dāng)分析某數(shù)據(jù)集的"芯片插入插座"操作時(shí),系統(tǒng)不僅識(shí)別出第17幀存在的角度偏差(超出允許范圍3.2度),還發(fā)現(xiàn)第24幀的插入深度不足(僅達(dá)到標(biāo)準(zhǔn)值的78%)。這種多維度質(zhì)量評(píng)估使研究者能精準(zhǔn)定位數(shù)據(jù)缺陷類型,為針對(duì)性改進(jìn)提供依據(jù)。
研究揭示模型規(guī)模與性能的非線性關(guān)系:Gemma-3系列中,270億參數(shù)模型預(yù)測誤差比40億參數(shù)模型降低41%,但增加至540億參數(shù)時(shí),性能提升僅7%。這表明單純擴(kuò)大模型規(guī)模效益遞減,需結(jié)合架構(gòu)創(chuàng)新。專項(xiàng)優(yōu)化模型如MiMo-VL-7B-RL-2508通過引入時(shí)空注意力機(jī)制,在相同參數(shù)量下實(shí)現(xiàn)比基礎(chǔ)模型高23%的預(yù)測準(zhǔn)確率。
該研究對(duì)機(jī)器人產(chǎn)業(yè)發(fā)展具有雙重價(jià)值:一方面為數(shù)據(jù)采集方提供質(zhì)量自檢工具,某工業(yè)機(jī)器人企業(yè)應(yīng)用后,訓(xùn)練數(shù)據(jù)可用率從68%提升至91%;另一方面為模型開發(fā)者指明改進(jìn)方向,開源社區(qū)已根據(jù)研究結(jié)論啟動(dòng)"時(shí)空推理增強(qiáng)計(jì)劃",預(yù)計(jì)未來兩年開源模型性能差距將縮小至商業(yè)模型的85%以內(nèi)。











