全球具身智能領域迎來重要突破——北京人形機器人創新中心近日開源全球參數量最大的多模態大模型Pelican-VL 1.0,該模型首次打通了從環境感知到物理操作的完整智能鏈路,在空間理解、物理推理等核心維度實現系統性提升,為機器人產業注入全新動能。
這款覆蓋7B至72B參數規模的模型,通過視覺、視頻與語言指令的深度融合,構建起"感知-認知-行動"的閉環系統。相較于傳統模型僅能處理單一模態數據的局限,Pelican-VL可同時解析三維空間信息、物體物理屬性及動態因果關系,在12項國際權威評測中超越多數百億級開源模型。其獨創的"刻意練習"訓練機制,使模型能通過自我診斷持續優化決策路徑,形成類似人類的學習進化能力。
在精密操作領域,該模型展現出顛覆性突破。基于主動預測、觸覺適應與記憶更新的三階段控制框架,機器人可完成從雞蛋抓取到復雜裝配的柔性操作。測試數據顯示,搭載Pelican-VL的機械臂在接觸物體前即能預判材質特性,接觸瞬間通過毫秒級觸覺反饋調整抓力,任務完成后自動更新操作經驗庫。這種類人化的感知運動能力,使機器人抓取成功率較傳統方法提升40%,且能自適應處理未知物體。
多模態指令理解方面,模型構建了視覺-語言-行動的轉換橋梁。在模擬家居場景測試中,面對"整理房間"的復合指令,系統自動拆解為23個子任務,動態規劃行動序列并實時調整策略。當遇到障礙物時,模型能重新規劃路徑而不中斷任務流程,這種長程規劃能力使其在商超理貨、醫療護理等場景具有顯著優勢。
針對多機器人協作難題,研究團隊開發了分層任務調度系統。在燈泡質檢流水線案例中,Pelican-VL將任務分解為電控檢測、結構分析等模塊,分別調度輪式機器人與雙臂機器人協同作業。通過函數調用接口,模型可精準控制不同機器人的關節軌跡與操作力度,實現跨本體協作效率最大化。這種架構已應用于汽車制造產線,使多機協作效率提升65%。
開源策略顯著降低技術門檻。創新中心同步開放模型權重與推理框架代碼,提供從訓練到部署的全鏈條工具包。制造業企業可基于預訓練模型快速開發特定場景應用,開發周期從傳統方式的6-8個月縮短至2-3周。某家電企業利用該平臺,兩周內即完成冰箱裝配機器人的智能升級,故障率下降30%。
技術突破背后是持續的數據積累。創新中心正在推進"千臺機器人真實場景數據采集計劃",已部署的500余臺機器人在12類工業場景中持續收集多模態數據。這些數據將用于訓練下一代模型,預計可使機器人對復雜指令的理解準確率提升至98%,操作泛化能力覆蓋90%以上工業場景。
作為全球首個斬獲人形機器人馬拉松冠軍的團隊,北京人形機器人創新中心已構建起完整的研發體系。其推出的"具身天工"硬件平臺與"慧思開物"軟件平臺,與Pelican-VL形成技術閉環。這種軟硬協同的創新模式,正在推動具身智能從實驗室走向產業化應用,預計未來三年將催生超百款新型智能機器人產品。











