在具身智能技術(shù)加速突破的當(dāng)下,行業(yè)長期面臨的生態(tài)碎片化問題正成為制約發(fā)展的關(guān)鍵瓶頸。作為機(jī)器人感知-決策-執(zhí)行的核心技術(shù)路徑,視覺-語言-動(dòng)作(VLA)模型的研究因開發(fā)工具鏈割裂而陷入困境。不同研究機(jī)構(gòu)采用差異化深度學(xué)習(xí)框架、模型架構(gòu)和訓(xùn)練流程,導(dǎo)致算法復(fù)現(xiàn)困難、工程協(xié)作低效,研究者常需耗費(fèi)大量時(shí)間配置多套實(shí)驗(yàn)環(huán)境,模型性能的公平性與可重復(fù)性遭受質(zhì)疑。
更具挑戰(zhàn)性的是,當(dāng)前主流VLA策略仍依賴過時(shí)的模型架構(gòu)。以O(shè)penVLA及其衍生模型CogACT、OFT為例,其底層均基于Llama2架構(gòu),未能充分利用Qwen3等新一代模型更強(qiáng)的表征能力。這種技術(shù)代差導(dǎo)致行業(yè)看似創(chuàng)新不斷,實(shí)則仍在舊技術(shù)框架內(nèi)循環(huán),學(xué)術(shù)研究與工程落地的重復(fù)建設(shè)成為具身智能規(guī)模化發(fā)展的隱形障礙。
針對(duì)上述痛點(diǎn),Dexmal原力靈機(jī)團(tuán)隊(duì)推出開源VLA工具箱Dexbotic,構(gòu)建了基于PyTorch框架的標(biāo)準(zhǔn)化科研基礎(chǔ)設(shè)施。該工具箱通過"統(tǒng)一架構(gòu)+高性能預(yù)訓(xùn)練模型+實(shí)驗(yàn)?zāi)_本化"的創(chuàng)新設(shè)計(jì),實(shí)現(xiàn)了多策略復(fù)現(xiàn)、跨機(jī)器人數(shù)據(jù)整合與開發(fā)流程自動(dòng)化三大突破。開發(fā)者僅需一次環(huán)境配置,即可在統(tǒng)一代碼庫中復(fù)現(xiàn)π0、OFT、CogACT等主流算法,模型性能比較與算法迭代效率顯著提升。
在數(shù)據(jù)標(biāo)準(zhǔn)化層面,Dexbotic開發(fā)的Dexdata格式為UR5、Franka等主流機(jī)器人建立了統(tǒng)一數(shù)據(jù)規(guī)范。該格式將視頻與文本信息分別存儲(chǔ)于.mp4文件與JSONL目錄,通過index_cache.json元數(shù)據(jù)文件實(shí)現(xiàn)高效數(shù)據(jù)訪問。相比傳統(tǒng)格式,Dexdata在數(shù)據(jù)加載與訓(xùn)練階段可節(jié)省最高40%的存儲(chǔ)空間,其可擴(kuò)展架構(gòu)已支持8種單臂機(jī)器人與3種雙臂機(jī)器人的數(shù)據(jù)復(fù)用,未來將持續(xù)擴(kuò)展適配范圍。
預(yù)訓(xùn)練模型方面,Dexbotic提供離散型與連續(xù)型雙版本基座模型。Dexbotic-Base采用CLIP視覺編碼器與Qwen2.5語言模型架構(gòu),融合Open-X Embodiment、RLBench等多源仿真數(shù)據(jù)與真實(shí)機(jī)械臂數(shù)據(jù),支持π0、MemoryVLA等離散動(dòng)作策略的微調(diào)開發(fā)。針對(duì)連續(xù)動(dòng)作場景的Dexbotic-CogACT則提供單臂/雙臂版本,雙臂模型整合了8種真實(shí)機(jī)器人的52個(gè)任務(wù)數(shù)據(jù)與ALOHA雙臂數(shù)據(jù)集,支持多視角輸入與復(fù)雜操作任務(wù)。
實(shí)證測試顯示,Dexbotic在多個(gè)主流仿真基準(zhǔn)中表現(xiàn)優(yōu)異。在SimplerEnv的"堆疊方塊"等任務(wù)中,CogACT策略性能提升18.2%,DB-OFT版本提升達(dá)46.2%;CALVIN長時(shí)序任務(wù)里,DB-CogACT平均任務(wù)長度較原版增加0.81;ManiSkill2抓取任務(wù)中,DB-OFT成功率提升42%。真實(shí)機(jī)器人實(shí)驗(yàn)中,UR5e等平臺(tái)完成餐盤擺放、按鈕按壓等任務(wù)的成功率達(dá)80%-100%,但在紙張撕碎等精細(xì)操作中仍存在改進(jìn)空間。
硬件生態(tài)建設(shè)方面,團(tuán)隊(duì)同步推出開源機(jī)器人平臺(tái)DOS-W1。該平臺(tái)采用全開源設(shè)計(jì)方案,公開文檔、BOM清單與設(shè)計(jì)圖紙,通過快拆結(jié)構(gòu)與模塊化設(shè)計(jì)降低使用與維護(hù)成本。其人體工學(xué)設(shè)計(jì)提升操作舒適度,支持高效數(shù)據(jù)采集,未來將通過產(chǎn)業(yè)鏈共創(chuàng)擴(kuò)展功能模塊,構(gòu)建開放硬件生態(tài)。
為推動(dòng)技術(shù)落地,Dexbotic與RoboChallenge平臺(tái)達(dá)成合作,提供基于主流機(jī)器人的遠(yuǎn)程真機(jī)實(shí)驗(yàn)與標(biāo)準(zhǔn)化測試環(huán)境。開發(fā)者可將基于Dexbotic開發(fā)的策略提交至該平臺(tái),通過Table30桌面操作基準(zhǔn)測試集進(jìn)行性能驗(yàn)證。團(tuán)隊(duì)計(jì)劃持續(xù)擴(kuò)展預(yù)訓(xùn)練模型庫,集成仿真到真實(shí)世界的遷移學(xué)習(xí)工具鏈,并建立社區(qū)驅(qū)動(dòng)的模型貢獻(xiàn)機(jī)制,邀請(qǐng)全球開發(fā)者參與生態(tài)共建。











