谷歌近日宣布推出Gemini 2.5計算機使用模型,這是一款基于Gemini 2.5 Pro視覺理解與推理能力打造的專用工具,旨在讓AI智能體具備直接操作圖形用戶界面(GUI)的能力,包括點擊、輸入文字和滾動屏幕等人類操作。
開發(fā)者現(xiàn)已可通過Google AI Studio和Vertex AI中的Gemini API訪問該模型的公開預(yù)覽版。相關(guān)文檔已同步上線,開發(fā)者可參考鏈接了解具體使用方法。
谷歌指出,當(dāng)前AI模型主要通過結(jié)構(gòu)化API與軟件交互,但許多日常數(shù)字任務(wù)仍需直接操作圖形界面,例如填寫表單、提交信息等。這類任務(wù)要求AI智能體能像人類一樣瀏覽網(wǎng)頁和應(yīng)用程序,而原生支持表單填寫、下拉菜單操作和登錄后操作的能力,是構(gòu)建通用型智能體的關(guān)鍵突破。
該模型的核心功能通過Gemini API新增的computer_use工具實現(xiàn),采用循環(huán)運行機制。其工作流程分為四步:首先接收用戶請求、屏幕截圖和操作歷史作為輸入,開發(fā)者可指定排除某些操作或添加自定義函數(shù);隨后模型分析輸入并生成UI操作指令,如點擊或輸入;客戶端代碼執(zhí)行操作后,將新的屏幕截圖和URL反饋給模型,形成持續(xù)迭代,直至任務(wù)完成或因安全、用戶決策等原因終止。
技術(shù)文檔顯示,該模型特別針對Web瀏覽器環(huán)境優(yōu)化,同時在移動UI控制任務(wù)中展現(xiàn)出潛力,但尚未適配桌面操作系統(tǒng)級別的深度控制。
性能測試表明,Gemini 2.5計算機使用模型在多個Web和移動控制基準(zhǔn)測試中表現(xiàn)優(yōu)異。在Browserbase平臺的Online-Mind2Web測試中,該模型在瀏覽器控制質(zhì)量和響應(yīng)延遲方面均領(lǐng)先于市場主流方案。
針對AI控制計算機可能引發(fā)的安全風(fēng)險,谷歌構(gòu)建了多層次防護體系。模型訓(xùn)練階段即融入安全功能,重點防范三類核心威脅:用戶濫用、意外行為及Web環(huán)境中的提示注入攻擊。開發(fā)者可通過兩項安全控制工具進一步約束模型行為:逐步安全服務(wù)會在每次操作前進行獨立評估,系統(tǒng)指令功能則允許開發(fā)者設(shè)定高風(fēng)險操作(如繞過驗證碼、控制醫(yī)療設(shè)備)的拒絕或用戶確認(rèn)規(guī)則。
這些安全措施旨在幫助開發(fā)者規(guī)避系統(tǒng)破壞、安全威脅等高風(fēng)險行為,確保AI智能體在合規(guī)框架內(nèi)運行。











