谷歌近期推出了一款名為“Gemini 2.5 計算機使用”的新型人工智能模型,該模型專注于通過瀏覽器與網絡交互,使AI智能體能夠在專為人類設計的用戶界面中執行任務。這一創新旨在填補當前AI在非API依賴型系統操作中的空白,例如自動填寫并提交網頁表單等場景。
據介紹,該模型的核心能力源于其“視覺理解與推理”技術,能夠解析用戶請求并轉化為具體的瀏覽器操作。谷歌透露,這一特性使其不僅適用于用戶界面測試,還可操作那些僅面向人類用戶、未開放API接口的系統。此前,谷歌已在AI Mode智能體功能和研究項目“Mariner”中驗證了類似技術,例如通過AI根據食材清單自動將商品添加至購物車。
在競爭層面,谷歌此次發布恰逢OpenAI于年度開發者日推出ChatGPT新應用次日。OpenAI正持續強化其“ChatGPT智能體”功能,該功能可代理用戶完成復雜任務。與此同時,Anthropic公司已于去年推出Claude AI模型的“計算機使用”版本,形成三足鼎立之勢。
谷歌通過演示視頻展示了新模型的實際運行效果,并特別說明視頻播放速度已加速至3倍。測試數據顯示,該模型在網頁和移動端基準測試中表現優于現有主流方案。與競品不同的是,谷歌明確限制模型僅在瀏覽器環境中運行,無法操控整個計算機系統。官方強調,當前版本“未針對桌面操作系統層級控制進行優化”,目前支持包括打開瀏覽器、文本輸入、頁面元素拖放等13種基礎操作。
開發者可通過Google AI Studio和Vertex AI平臺獲取該模型,Browserbase平臺則提供在線演示服務。用戶可實時觀察模型完成“玩2048游戲”或“瀏覽Hacker News熱門話題”等任務,直觀體驗其與瀏覽器環境的交互能力。











