谷歌DeepMind再次刷新機器人技術邊界,正式推出全球首個具備模擬推理能力的具身模型——Gemini Robotics 1.5系列。這款新一代通用機器人基座模型不僅整合了視覺、語言與動作(VLA)的多模態能力,更通過具身推理(Embodied Reasoning)機制實現了“先思考、后行動”的突破性功能。
該系列由兩大核心模型構成:Gemini Robotics 1.5(GR 1.5)作為多模態執行層,負責將語言與視覺輸入轉化為具體動作;Gemini Robotics-ER 1.5(GR-ER 1.5)則強化推理能力,承擔任務規劃、工具調用與進度監控。其中,GR-ER 1.5成為全球首個具備模擬推理能力的具身模型,其“ER”后綴即代表“具身推理”。
與傳統機器人模型不同,GR 1.5系列通過顯性推理機制顯著提升了任務完成能力。例如,在分揀深淺色衣物或根據天氣自動打包行李的任務中,機器人不僅能分解復雜流程,還能在執行過程中自我檢測并修正錯誤。更令人矚目的是,該模型能根據不同地區的垃圾分類標準(如北京與上海的差異),主動搜索網絡信息以輔助完成任務。
跨平臺遷移能力是該系列的另一大亮點。通過Motion Transfer技術,GR 1.5系列實現了“零樣本”技能遷移:在ALOHA雙臂機器人上訓練的操作可直接應用于Franka工業機器人,甚至能無縫遷移至Apollo人形機器人。這種通用性打破了硬件形態的限制,使單一模型能驅動低成本機器人、工業級設備及人形機器人等多種硬件。
研究團隊指出,GR 1.5系列的核心創新在于同時實現了三大突破:顯性推理、跨平臺遷移與物理世界理解。在傳統模型中,動作往往是指令的直接映射,而GR 1.5在行動前會生成思考軌跡,將復雜任務拆解為小步驟并逐一執行。這種機制不僅提升了多步任務的穩定性,還通過可視化思考過程增強了可解釋性。
Motion Transfer技術的引入是關鍵。該技術將不同機器人的運動軌跡映射至統一動作語義空間,使機械臂與人形機器人等硬件能共享技能。例如,模型在ALOHA上學會的抓取動作,可直接遷移至Franka執行,無需針對新平臺重新訓練。研究顯示,該技術通過提煉物理世界的通用規律(如物體抓取方式、平衡維持策略),顯著提升了任務泛化能力。
安全性與魯棒性同樣得到重視。在ASIMOV-2.0安全基準測試中,GR 1.5展現出更高的風險識別與干預能力,能主動理解動作背后的物理風險并觸發保護機制。配合自動紅隊測試的持續優化,模型在抵御對抗攻擊、避免幻覺響應等方面表現更強。例如,當機器人抓取水瓶失敗時,會立即切換方案使用另一只手完成任務。
學術基準測試進一步驗證了該系列的優越性。GR-ER 1.5在空間推理、復雜指點、進度檢測等任務上全面超越GPT-5和Gemini 2.5 Flash,刷新了業界表現上限。在230項任務的評測中,GR 1.5在指令泛化、動作泛化、視覺泛化及任務泛化四個維度均優于前代模型。結合GR-ER 1.5的系統在長時序任務上完成進度分數接近80%,幾乎是單一VLA模型的兩倍。
數據與訓練策略是支撐該系列成功的基石。研究團隊采集了ALOHA、Franka、Apollo等平臺上成千上萬種操作數據,同時引入互聯網文本、圖像與視頻信息,確保模型兼具現實動作經驗與廣泛語義知識。訓練過程中,約九成迭代在MuJoCo仿真環境中完成,使模型能快速試錯、迭代后再遷移至真實硬件,顯著提升了研發效率與現實穩定性。
目前,開發者已可通過Google AI Studio中的Gemini API使用GR-ER 1.5,但GR 1.5僅向少數谷歌DeepMind合作伙伴開放。這一系列模型的推出,標志著機器人技術從執行單一指令向真正理解并解決物理任務邁出了關鍵一步。











