谷歌旗下DeepMind團隊近日發(fā)布了一款名為SIMA2的多模態(tài)智能體研究預覽版,該系統(tǒng)基于Gemini2.5Flash-lite架構開發(fā),在未接觸過的復雜環(huán)境中執(zhí)行指令的成功率較前代提升近一倍,同時展現(xiàn)出通過自我優(yōu)化持續(xù)提升性能的能力。研究團隊強調,此次發(fā)布的核心目標是驗證構建通用機器人與通用人工智能(AGI)所需的高層次環(huán)境理解與推理機制。
在技術實現(xiàn)層面,SIMA2延續(xù)了利用數(shù)百小時游戲視頻進行預訓練的策略,但創(chuàng)新性地引入了自生成數(shù)據閉環(huán)系統(tǒng)。當智能體進入新場景時,會調用獨立的Gemini模型批量生成多樣化任務,隨后通過內置的獎勵模型評估任務完成質量,篩選優(yōu)質軌跡數(shù)據用于持續(xù)微調。這種無需人工標注的自主學習機制,使系統(tǒng)在《無人深空》等測試場景中能夠通過解析環(huán)境文本、識別顏色符號等視覺信息,自主執(zhí)行"前往紅色建筑"或"采集特定資源"等復雜指令,甚至支持由emoji組合構成的抽象指令。
演示實驗中,研究團隊結合生成式世界模型Genie為SIMA2動態(tài)創(chuàng)建逼真的戶外場景。智能體不僅準確識別出長椅、樹木、蝴蝶等環(huán)境元素,還能根據指令與這些對象產生交互。高級研究科學家簡·王指出,這種"環(huán)境感知-目標推斷-動作規(guī)劃"的完整決策鏈,正是將虛擬環(huán)境訓練成果遷移至實體機器人的關鍵技術模塊。通過模擬環(huán)境中的反復驗證,團隊希望為真實機器人系統(tǒng)構建可復用的認知框架。
值得注意的是,當前版本的SIMA2專注于高層次決策能力的開發(fā),暫未涉及機械關節(jié)控制、運動協(xié)調等底層執(zhí)行技術。DeepMind同時訓練的機器人基礎模型采用完全不同的技術路徑,兩種系統(tǒng)的融合方案仍在探索階段。研究團隊拒絕透露正式版本的發(fā)布時間表,但表示希望通過開放預覽版吸引外部合作,共同研究虛擬智能體向物理實體遷移的技術路徑。目前該系統(tǒng)已展現(xiàn)出在動態(tài)環(huán)境中理解復雜指令的潛力,但其商業(yè)化應用仍需突破多項技術瓶頸。














