國內(nèi)具身智能領(lǐng)域迎來重要突破,北京人形機(jī)器人創(chuàng)新中心近日宣布開源一系列核心成果,包括國內(nèi)首個通過具身智能國家標(biāo)準(zhǔn)測試的VLA大模型XR-1,以及配套的數(shù)據(jù)基礎(chǔ)設(shè)施RoboMIND 2.0和ArtVIP最新版本。這一舉措旨在推動具身智能技術(shù)向"全自主、實(shí)用化"方向邁進(jìn),使機(jī)器人能夠在真實(shí)場景中高效完成多樣化任務(wù)。
作為開源項目的核心,VLA模型XR-1聚焦具身小腦能力開發(fā),具備三大技術(shù)優(yōu)勢:其跨數(shù)據(jù)源學(xué)習(xí)能力可利用海量人類操作視頻進(jìn)行訓(xùn)練,顯著降低數(shù)據(jù)獲取成本;跨模態(tài)對齊技術(shù)通過構(gòu)建視覺與動作的映射關(guān)系,實(shí)現(xiàn)"所見即所動"的類人反應(yīng);跨本體控制能力則支持模型快速適配不同品牌、類型的機(jī)器人硬件。這些特性使XR-1成為國內(nèi)首個實(shí)現(xiàn)多場景、多本體、多任務(wù)協(xié)同的具身智能模型。
支撐XR-1性能突破的關(guān)鍵在于創(chuàng)新研發(fā)的UVMC(多模態(tài)視動統(tǒng)一表征)技術(shù)。該技術(shù)通過建立視覺信息與動作指令的實(shí)時轉(zhuǎn)換機(jī)制,使機(jī)器人能夠像人類一樣產(chǎn)生條件反射式的自然反應(yīng)。在實(shí)際測試中,搭載該技術(shù)的具身天工2.0機(jī)器人展現(xiàn)了卓越的運(yùn)動控制能力,可完成大幅彎腰下蹲、精準(zhǔn)抓取隨機(jī)擺放物料箱等復(fù)雜動作,甚至能處理倒料等需要多關(guān)節(jié)協(xié)同的操作任務(wù)。
配套數(shù)據(jù)平臺RoboMIND 2.0在原有基礎(chǔ)上實(shí)現(xiàn)全面升級。新版本數(shù)據(jù)集包含超過30萬條機(jī)器人操作軌跡,覆蓋工業(yè)零件分揀、流水線作業(yè)、物理化學(xué)實(shí)驗、家庭廚房操作、家電交互等11個典型場景,形成工業(yè)、商用、家庭三大領(lǐng)域的完整數(shù)據(jù)體系。值得關(guān)注的是,平臺新增1.2萬條帶觸覺反饋的操作數(shù)據(jù),為訓(xùn)練具備物理感知能力的VTLA、MLA模型提供支持,同時開源的ArtVIP仿真數(shù)據(jù)集可服務(wù)于機(jī)器人大小腦模型的聯(lián)合訓(xùn)練。
在硬件適配性方面,XR-1展現(xiàn)出強(qiáng)大的泛化能力。通過跨本體控制技術(shù),該模型可快速兼容不同構(gòu)型的機(jī)器人本體,實(shí)現(xiàn)運(yùn)動控制參數(shù)的自動匹配。這種特性不僅降低了模型部署門檻,更為具身智能技術(shù)在倉儲物流、智能制造、家庭服務(wù)等多個領(lǐng)域的規(guī)模化應(yīng)用奠定了基礎(chǔ)。隨著開源生態(tài)的完善,國內(nèi)具身智能產(chǎn)業(yè)有望進(jìn)入快速發(fā)展期。









