谷歌近日推出了一款革命性的機器人具身推理模型——Gemini Robotics-ER 1.5,標(biāo)志著機器人技術(shù)領(lǐng)域的重要突破。這款模型作為首個向全體開發(fā)者開放的Gemini機器人系列,旨在為機器人提供高級推理能力,使其能夠更智能地與物理世界互動。
Gemini Robotics-ER 1.5是一款視覺-語言模型(VLM),通過將Gemini的智能體功能引入機器人技術(shù),賦予機器人理解復(fù)雜指令、推理物理環(huán)境并執(zhí)行任務(wù)的能力。與傳統(tǒng)模型不同,它專為增強機器人的感知能力和現(xiàn)實世界互動能力而設(shè)計,能夠解讀視覺數(shù)據(jù)、執(zhí)行空間推理,并根據(jù)自然語言命令規(guī)劃行動。
在操作層面,該模型可與現(xiàn)有機器人控制器和行為無縫配合,通過按順序調(diào)用機器人API,編排復(fù)雜行為以完成長時程任務(wù)。例如,用戶可以用自然語言下達“將物品分類到廚余、可回收和普通垃圾桶”的指令,機器人需自主查找本地垃圾分類規(guī)則、識別物品并完成投放。這種多步驟、上下文相關(guān)的任務(wù)處理能力,使其在學(xué)術(shù)和內(nèi)部基準(zhǔn)測試中達到行業(yè)頂尖水平。
模型的核心優(yōu)勢之一是其快速而精確的空間推理能力。基于Gemini Flash模型的低延遲特性,它能夠生成語義精確的2D坐標(biāo)點,支持“指出所有可拿起物體”等指令。在測試中,當(dāng)被要求標(biāo)記廚房場景圖片中的物品(如洗潔精、水龍頭)時,模型能準(zhǔn)確提供歸一化坐標(biāo),并拒絕標(biāo)記不存在的物品,避免“幻覺”錯誤。
時間推理能力是另一大亮點。通過分析視頻幀,模型可理解物體與行為之間的因果關(guān)系。例如,在機械臂整理書寫工具的視頻中,模型能按時間戳精確描述每一步操作,甚至可根據(jù)要求對特定時間段進行逐秒分解,輸出包含開始時間、結(jié)束時間和描述的JSON格式數(shù)據(jù)。
對于長周期任務(wù),Gemini Robotics-ER 1.5展現(xiàn)了強大的協(xié)調(diào)能力。在制作咖啡的示例中,模型不僅能標(biāo)記咖啡機下方放杯子的位置、頂部放膠囊的倉位,還能生成關(guān)閉咖啡機蓋子的8點軌跡,并指示清洗杯子的水槽位置。這種“空間錨定”計劃將文本指令與物理動作緊密結(jié)合,使機器人能高效完成復(fù)雜任務(wù)。
開發(fā)者可通過靈活調(diào)整“思考預(yù)算”來平衡模型的延遲與準(zhǔn)確性。對于物體檢測等簡單任務(wù),小預(yù)算即可實現(xiàn)高性能;而對于多步組裝等復(fù)雜任務(wù),增加預(yù)算可顯著提升結(jié)果質(zhì)量。這一特性使模型能同時滿足快速響應(yīng)和精確推理的需求。
安全性方面,模型改進了語義安全過濾器,能識別并拒絕違反物理約束的計劃(如超出機器人載荷能力的操作),為開發(fā)者提供更可靠的構(gòu)建環(huán)境。
目前,Gemini Robotics-ER 1.5預(yù)覽版已開放體驗。開發(fā)者可通過Google AI Studio實驗?zāi)P停喿x開發(fā)者文檔獲取快速入門指南和API參考,或通過Colab筆記本查看實際應(yīng)用案例。完整技術(shù)報告也已發(fā)布,為技術(shù)社區(qū)提供深入分析。
這款模型被視為機器人的“高級大腦”,能夠理解復(fù)雜指令、推理長周期任務(wù)并協(xié)調(diào)行為。無論是調(diào)用硬件API、專用抓取模型,還是運動控制模型,它都能將用戶請求分解為可執(zhí)行的計劃,推動機器人技術(shù)向更智能、更自主的方向發(fā)展。











