想象這樣一個場景:清晨醒來,機器人管家已為你煮好咖啡,整理完房間后開始照顧寵物;工業生產線上,機械臂精準完成焊接、裝配等復雜操作。這些曾經只存在于科幻電影中的畫面,如今因德國卡爾斯魯厄理工學院直覺機器人實驗室的突破性研究而更接近現實。該團隊開發的FLOWER機器人“大腦”系統,不僅能理解人類語言指令,還能高效控制多種類型機器人完成復雜任務,其計算資源需求僅為現有技術的1%。
這項發表于2025年首爾機器人學習會議的研究,由莫里茨·羅伊斯團隊主導。他們開發的FLOWER系統(Florence With Embodied Flow的縮寫)突破了傳統機器人“大腦”的局限。傳統機器人如同專才,掃地機器人只會清掃,工業機械臂僅能焊接;而FLOWER旨在創造通才型機器人,既能烹飪又能打掃,既能照顧兒童也能維修家電。研究團隊通過創新技術,讓機器人像人類一樣靈活應對多樣化任務。
FLOWER的核心創新在于“中間層融合”技術。傳統方法如同讓學生背完整本百科全書再學習技能,既耗時又低效;而FLOWER采用“核心知識+靈活模板”的模式,僅保留關鍵信息層,大幅減少參數數量。例如,對于編碼器-解碼器結構的系統,研究團隊完全移除了解碼器部分,僅保留編碼器;對于純解碼器結構,則去掉了最后30%的層次。這一改造使參數減少20%-35%,計算時間顯著降低,性能卻反而提升。
另一項關鍵技術是“動作空間全局自適應層歸一化”。傳統方法為每種機器人配備獨立工具箱,資源浪費嚴重;而FLOWER建立共享工具系統,通過基礎工具與專項調整的結合,既節省20%參數又保持效果。例如,在雙臂機器人測試中,FLOWER的“立方體轉移”和“插銷插入”任務表現明顯優于專門設計的ACT算法,展現了高頻控制下的精密操作能力。
實驗驗證環節,研究團隊在虛擬與真實環境中進行了大規模測試。虛擬環境中,FLOWER在CALVIN基準測試中創下4.53分紀錄,完成開抽屜、放物品、關抽屜、開燈等連續家務任務。真實廚房測試中,配備Franka Panda機器人的系統執行20種任務,從“移動鍋具”到“操作烤箱”,平均成功率達61%,是第二名OpenVLA(31%)的兩倍。尤其在泛化能力測試中,面對新物體、手電筒照明、背景干擾等挑戰,FLOWER仍保持51%的平均成功率,遠超OpenVLA的23.4%。
計算效率方面,FLOWER的優勢更為突出。在相同硬件下,其推理速度達311Hz,比π0快8%,比OpenVLA快50倍;內存占用僅1.85GB,相當于π0的27.6%和OpenVLA的12.7%。訓練成本差異驚人:OpenVLA需35000個GPU小時,RDT-1B需21500個GPU小時,而FLOWER僅需192個GPU小時,僅為傳統方法的0.5%-0.9%。
技術架構上,FLOWER采用模塊化設計,包含視覺語言模型、流變換器、動作空間編碼器與解碼器等組件。這種設計便于擴展,新增機器人類型或任務僅需添加模塊。預訓練數據集雖僅約25萬條軌跡,但來自Droid、Google Robot等多樣化場景,更接近真實世界復雜情況。數據處理時,75%的訓練聚焦場景變化豐富的數據,25%用于精確操作技能學習,平衡了廣度與深度。
實驗設計嚴謹,研究團隊不僅測試最佳性能,還通過消融實驗分析各組件貢獻。例如,使用傳統AdaLN替代全局AdaLN會導致性能下降,晚期融合的效果劣于中間層融合。這些分析確保了系統設計的合理性。在跨機器人適應性測試中,FLOWER成功兼容單臂、雙臂、關節控制、末端執行器控制等多種配置,展現了強大的通用性。
失敗案例分析同樣值得關注。研究團隊發現,FLOWER的主要問題包括空間定位輕微偏差(如推拉杠桿時偏差約1厘米)、復雜環境路徑規劃困難(如水槽邊緣易卡住)及偶爾的力度控制失誤。這些問題的識別為未來改進指明了方向。
從社會意義看,FLOWER降低了機器人部署的技術門檻與成本,使中小企業和研究機構也能開發先進系統。研究團隊開源了論文、代碼庫與預訓練模型,促進了技術傳播。其采用的中間層融合與流式生成技術,可能影響自動駕駛、游戲AI、實時翻譯等多模態AI系統設計。
這項研究融合了計算機視覺、自然語言處理、機器人學與控制理論,體現了跨學科合作的力量。FLOWER不僅是一個技術突破,更向真正智能的機器人邁出了重要一步。當機器人能理解指令、靈活操作、應對新環境且高效運行時,科幻場景正逐步成為現實。











