在人工智能發(fā)展進程中,深度學(xué)習(xí)曾因ImageNet挑戰(zhàn)賽迎來爆發(fā)式增長。如今,具身智能與機器人領(lǐng)域或許正站在一個類似的轉(zhuǎn)折點上。斯坦福AI實驗室與李飛飛團隊宣布,首屆BEHAVIOR挑戰(zhàn)賽將于NeurIPS 2025期間舉辦,這一賽事被視為具身智能領(lǐng)域的“超級基準測試”,旨在推動機器人完成更貼近人類生活的復(fù)雜任務(wù)。
BEHAVIOR挑戰(zhàn)賽的核心在于構(gòu)建一個全面評估機器人能力的平臺。與以往碎片化的測試不同,該賽事要求機器人同時具備跨房間導(dǎo)航、雙手精細操作、長期規(guī)劃以及動態(tài)適應(yīng)環(huán)境的能力。賽事設(shè)置了1000個家庭日常任務(wù),涵蓋烹飪、清潔、整理等場景,其中50個為長時段完整任務(wù),平均每個任務(wù)需連續(xù)操作6.6分鐘。這種設(shè)計旨在檢驗機器人能否在逼真的虛擬環(huán)境中完成真正貼近人類生活的操作。
支撐這一挑戰(zhàn)的是高保真環(huán)境仿真技術(shù)。基于NVIDIA Omniverse的OmniGibson模擬器,能夠還原衣物折疊、液體倒水、加熱冷凍等復(fù)雜物理交互。賽事還提供了前所未有的數(shù)據(jù)資源:10,000條專家遙操作示范,總時長超過1200小時,所有數(shù)據(jù)均標注了物體狀態(tài)、空間關(guān)系和自然語言描述。這些“黃金數(shù)據(jù)集”為模仿學(xué)習(xí)和強化學(xué)習(xí)提供了重要基礎(chǔ)。
為確保研究結(jié)果的可遷移性,賽事統(tǒng)一采用星海圖R1 Pro機器人作為硬件平臺。這款機器人具備雙手協(xié)調(diào)和穩(wěn)定導(dǎo)航能力,使參賽團隊的研究成果能夠更廣泛地應(yīng)用于實際場景。官方還提供了完整的訓(xùn)練評估流程,包括模仿學(xué)習(xí)(如ACT、Diffusion Policy)和視覺語言行動模型(如OpenVLA、π0)的代碼實現(xiàn),幫助參賽者快速入門。
評估標準分為主要指標和輔助指標。主要指標為任務(wù)成功率,區(qū)分完全達成和部分達成;輔助指標包括效率(用時、路徑、動作數(shù)量)和數(shù)據(jù)利用率(示范數(shù)量與成效的比例)。賽事時間表顯示,2025年9月2日將開放報名和數(shù)據(jù)下載,11月15日進行最終評估,結(jié)果將于12月6日至7日在NeurIPS 2025上公布。雖然最高獎項僅為1000美元,但參賽者將獲得在全球頂尖AI會議上展示研究成果的機會。
賽事官方網(wǎng)站(behavior.stanford.edu)提供了詳細的開發(fā)指南,包括OmniGibson仿真器的安裝、3D場景資源和物體模型的下載、示范數(shù)據(jù)集的加載方法。入門套件中包含示例訓(xùn)練腳本和評估例程,幫助研究者快速重現(xiàn)基線結(jié)果。文檔還詳細介紹了環(huán)境設(shè)置、機器人控制接口的使用以及任務(wù)執(zhí)行流程的可視化方法,降低了新手的參與門檻。
BEHAVIOR挑戰(zhàn)賽的意義遠超一場競賽。它試圖回答具身智能領(lǐng)域的核心問題:當(dāng)前技術(shù)距離真正獨立完成家務(wù)任務(wù)還有多遠?機器人在新環(huán)境中能否實現(xiàn)跨場景泛化?隨著示范數(shù)據(jù)規(guī)模的擴大,是否會出現(xiàn)類似語言和視覺領(lǐng)域的“擴展率”現(xiàn)象?通過開放賽題和大規(guī)模數(shù)據(jù),賽事希望凝聚全球研究者的智慧,共同探索這些尚未解決的問題。
這場挑戰(zhàn)賽既是一次學(xué)術(shù)競技,也是一場社區(qū)實驗。它不僅考驗算法性能,更推動研究者思考:要讓機器人真正融入人類生活,還需要突破哪些技術(shù)瓶頸?隨著數(shù)據(jù)開放和任務(wù)就緒,全球研究者正迎來一個共同探索具身智能未來的機會。