谷歌近期對外展示了其正在研發的全新人工智能模型——Gemini 2.5 Computer Use。這款模型的核心能力在于,能夠通過瀏覽器分析并處理網絡內容,模擬人類用戶在傳統界面中執行各類操作。其技術亮點在于融合了視覺理解與邏輯推理,可精準解析用戶指令并完成表單填寫、信息提交等任務。
該模型的應用場景涵蓋兩大領域:一是自動化測試用戶界面,驗證交互設計的合理性;二是操作僅面向人類用戶開發的系統,尤其針對未開放API接口的封閉平臺。此前,谷歌已在AI Mode智能體功能和“Mariner”研究項目中應用類似技術,例如通過瀏覽器自動根據食材清單采購商品。
在行業動態方面,谷歌此舉與競爭對手形成直接對話。OpenAI在年度開發者日次日宣布升級ChatGPT智能體功能,強化其代理執行復雜任務的能力;而Anthropic公司早在去年就推出了Claude AI模型的計算機操作版本。三家科技巨頭在AI代理技術領域的競爭愈發激烈。
谷歌公布的演示視頻顯示,其計算機使用模型在加速三倍播放的條件下,仍能流暢完成網頁瀏覽、文本輸入、元素拖放等13項預設操作。技術團隊強調,該模型嚴格限定于瀏覽器環境運行,不會觸達桌面操作系統層級,目前尚未針對系統級控制進行優化。基準測試數據顯示,其在多網頁和移動端場景中的表現優于現有主流方案。
開發者可通過Google AI Studio和Vertex AI平臺獲取該模型,Browserbase在線演示環境則提供了直觀體驗入口。用戶可實時觀察模型執行“玩2048游戲”“瀏覽Hacker News熱門話題”等動態任務,直觀感受其交互能力。這種技術突破為AI代理在消費級場景的落地開辟了新路徑。











