機(jī)器人學(xué)習(xí)領(lǐng)域迎來重大突破——浙江大學(xué)聯(lián)合南京大學(xué)、香港科技大學(xué)的研究團(tuán)隊(duì),開發(fā)出一種僅通過靜態(tài)圖像就能讓機(jī)器人掌握復(fù)雜運(yùn)動(dòng)技能的新方法。這項(xiàng)發(fā)表于arXiv預(yù)印本平臺(tái)(論文編號(hào):arXiv:2510.05057v1)的研究,為機(jī)器人運(yùn)動(dòng)學(xué)習(xí)開辟了全新路徑。
傳統(tǒng)機(jī)器人學(xué)習(xí)模式如同教孩子騎自行車,需要讓機(jī)器人觀看大量連續(xù)動(dòng)作視頻,從一幀幀畫面中學(xué)習(xí)動(dòng)作銜接。但新研究顛覆了這一認(rèn)知:就像魔術(shù)師僅憑表演前后的場(chǎng)景就能還原整個(gè)過程,機(jī)器人通過觀察兩張靜態(tài)圖片的差異,就能推斷出完整的運(yùn)動(dòng)軌跡。研究團(tuán)隊(duì)開發(fā)的StaMo系統(tǒng),通過將復(fù)雜場(chǎng)景壓縮為兩個(gè)高密度數(shù)字令牌,利用令牌間的差異自然生成運(yùn)動(dòng)指令。
實(shí)驗(yàn)數(shù)據(jù)顯示,集成StaMo的機(jī)器人系統(tǒng)在LIBERO基準(zhǔn)測(cè)試中性能提升14.3%,真實(shí)環(huán)境操作成功率提高30%。這種提升猶如給汽車更換了更高效的引擎,不僅運(yùn)行速度加快,能耗反而降低。研究團(tuán)隊(duì)指出,該方法突破了傳統(tǒng)視頻學(xué)習(xí)對(duì)連續(xù)時(shí)序數(shù)據(jù)的依賴,通過構(gòu)建緊湊的狀態(tài)表示,實(shí)現(xiàn)了從"看電影"到"看照片"的學(xué)習(xí)范式轉(zhuǎn)變。
StaMo系統(tǒng)的核心在于其獨(dú)特的壓縮-重建機(jī)制。系統(tǒng)采用DINOv2視覺編碼技術(shù),將包含機(jī)器人、物體、環(huán)境的復(fù)雜圖像壓縮為兩個(gè)1024維向量,相當(dāng)于將百科全書內(nèi)容濃縮成兩個(gè)"超級(jí)句子"。基于擴(kuò)散變換器的智能重建器,則能根據(jù)這兩個(gè)向量重建原始場(chǎng)景,并隱含理解物體間的物理關(guān)系。研究團(tuán)隊(duì)發(fā)現(xiàn),兩個(gè)不同時(shí)刻向量的差異,恰好編碼了狀態(tài)轉(zhuǎn)換所需的運(yùn)動(dòng)信息。
在模擬環(huán)境測(cè)試中,StaMo使OpenVLA模型在空間推理、物體操作、目標(biāo)導(dǎo)向、長(zhǎng)序列任務(wù)四個(gè)類別中的成功率分別提升12.1%、11.2%、10.6%、25.4%。真實(shí)世界實(shí)驗(yàn)中,短期任務(wù)成功率從30%躍升至72%,長(zhǎng)期任務(wù)成功率從20%提升至62%。特別值得注意的是,這種性能提升幾乎未增加計(jì)算負(fù)擔(dān),系統(tǒng)運(yùn)行頻率仍保持在4.02Hz的高效水平。
技術(shù)細(xì)節(jié)顯示,StaMo采用分層壓縮策略:DINOv2模型先提取圖像高級(jí)特征,再通過輕量級(jí)變換器網(wǎng)絡(luò)壓縮為兩個(gè)向量。解碼器部分利用預(yù)訓(xùn)練的Stable Diffusion 3模型,通過流匹配目標(biāo)函數(shù)直接學(xué)習(xí)最優(yōu)傳輸路徑,避免了傳統(tǒng)擴(kuò)散模型的迭代去噪過程。損失函數(shù)結(jié)合重建損失和預(yù)測(cè)損失,確保模型既保留足夠信息又學(xué)習(xí)有用動(dòng)態(tài)。
與傳統(tǒng)方法相比,StaMo展現(xiàn)出顯著優(yōu)勢(shì)。基于視頻的方法雖能捕捉時(shí)序信息,但計(jì)算復(fù)雜度高、數(shù)據(jù)需求量大;基于狀態(tài)的方法雖計(jì)算高效,但表達(dá)能力有限。StaMo通過精心設(shè)計(jì)的編碼器,在緊湊性和表達(dá)性之間找到平衡點(diǎn)。共訓(xùn)練實(shí)驗(yàn)表明,使用相同演示數(shù)據(jù)時(shí),StaMo通過四個(gè)偽動(dòng)作序列就能將成功率從62.9%提升至84.6%。
這項(xiàng)技術(shù)具有廣泛的應(yīng)用前景。在家庭服務(wù)領(lǐng)域,機(jī)器人可通過少量靜態(tài)圖像快速學(xué)習(xí)新任務(wù);工業(yè)自動(dòng)化中,生產(chǎn)線能快速適應(yīng)新產(chǎn)品;醫(yī)療機(jī)器人領(lǐng)域,其精確性和可解釋性為安全操作提供保障。研究團(tuán)隊(duì)特別指出,StaMo在真實(shí)環(huán)境中的主要失敗模式發(fā)生在精密抓取場(chǎng)景,預(yù)測(cè)動(dòng)作有時(shí)會(huì)導(dǎo)致機(jī)械臂下降深度不足。
面向未來,研究團(tuán)隊(duì)計(jì)劃從四個(gè)方向深化研究:提升精密操作能力、適應(yīng)動(dòng)態(tài)環(huán)境、優(yōu)化移動(dòng)平臺(tái)計(jì)算效率、擴(kuò)展數(shù)據(jù)多樣性。他們認(rèn)為,將StaMo與大語(yǔ)言模型、強(qiáng)化學(xué)習(xí)、傳感器融合等技術(shù)結(jié)合,可能產(chǎn)生更大的協(xié)同效應(yīng)。這項(xiàng)研究不僅推進(jìn)了機(jī)器人技術(shù)發(fā)展,更為人工智能領(lǐng)域重新思考學(xué)習(xí)與表示的本質(zhì)提供了新視角。











