谷歌公司今日正式推出新一代人工智能模型Gemini 3,這款被官方定義為“通往通用人工智能(AGI)重要里程碑”的產品,在多模態理解、深度推理和自主執行能力方面實現突破性進展。據測試數據顯示,該模型在主流基準測試中全面超越前代產品及當前市場領先模型,其增強版Deep Think模式更展現出博士級問題解決能力。
核心版本包含Gemini 3 Pro與Deep Think兩種形態。Pro版本即日起通過Gemini應用和AI Studio開放預覽,在LMArena測評中以1501分刷新紀錄,較前代提升超過15%。在Humanity’s Last Exam測試中取得37.5%裸分(不使用外部工具),GPQA Diamond測試準確率達91.9%,MathArena Apex數學基準測試中以23.4%的成績確立新標準。多模態領域同樣表現亮眼,Video-MMMU視頻理解測試得分87.6%,SimpleQA事實核查準確率突破72.1%。
增強推理模式Deep Think通過專項優化,在復雜問題處理上實現階躍式提升。測試數據顯示,該模式在Humanity’s Last Exam得分提升至41%,GPQA Diamond準確率達93.8%,在包含代碼執行的ARC-AGI-2測試中取得45.1%的突破性成績。谷歌透露,Deep Think模式將作為高級功能,未來數周內向AI Ultra訂閱用戶開放。
開發平臺方面,全新推出的Antigravity平臺重構了AI開發范式。該平臺深度集成Gemini 3 Pro、2.5 Computer Use瀏覽器控制模型及Nano Banana圖像編輯模型,賦予智能體直接操作編輯器、終端和瀏覽器的權限。在WebDev Arena編碼測試中,Gemini 3以1487分登頂排行榜,Terminal-Bench 2.0終端操作測試中完成54.2%的任務,SWE-bench Verified代碼驗證測試準確率達76.2%。
針對普通用戶場景,Gemini 3擴展了100萬token的上下文處理能力,支持文本、圖像、視頻、音頻和代碼的跨模態交互。實測案例顯示,該模型可自動識別多語言手寫食譜并生成電子烹飪書,通過分析匹克球比賽視頻制定個性化訓練方案。在搜索服務中,AI模式新增生成式交互界面,可根據用戶查詢即時創建可視化工具和沉浸式布局。
長時程規劃能力驗證方面,Vending-Bench 2測試顯示Gemini 3 Pro在全年模擬運營中保持決策一致性,較前代提升37%的運營回報率。這項能力使其能高效處理旅行規劃、郵件分類等現實場景中的多步驟任務。谷歌宣布,此次發布首次實現新模型在發布當日即接入搜索服務,AI Pro和Ultra訂閱用戶可立即體驗增強功能。
技術部署層面,Gemini 3采用全棧式AI策略,形成覆蓋消費級應用、開發者工具和企業服務的完整生態。普通用戶可通過Gemini應用和搜索AI模式直接使用,開發者可借助AI Studio、Antigravity平臺及CLI工具進行二次開發,企業客戶則通過Vertex AI和Gemini Enterprise獲得定制化解決方案。谷歌透露,當前AI Overviews月活躍用戶已達20億,Gemini應用月活突破6.5億,新模型的部署將進一步鞏固其市場領先地位。











