谷歌今日正式推出新一代人工智能模型Gemini 3,這款被官方定義為“通往通用人工智能(AGI)重要里程碑”的產品,在多模態理解、深度推理及智能體開發能力上實現突破性進展。據實測數據,其綜合性能已超越當前主流模型GPT-5與Claude sonnet 4.5,在編程、科學模擬等復雜任務中展現出接近人類專家的水平。
核心版本分為Gemini 3 Pro與增強推理模式Deep Think。Pro版本即日起通過Gemini應用、Google AI Studio及全新Agent開發平臺Antigravity開放預覽,Deep Think模式則需數周完成安全評估后向Ultra訂閱用戶推送。此次發布標志著谷歌首次在發布首日將新模型全面接入搜索服務,覆蓋普通用戶、開發者及企業客戶三大群體。
在基準測試中,Gemini 3 Pro以1501分登頂LMArena排行榜,刷新多模態模型得分紀錄。其數學推理能力在MathArena Apex測試中取得23.4%的突破性成績,確立前沿模型新標準;多模態理解方面,Video-MMMU測試得分87.6%,SimpleQA事實準確性驗證達72.1%。特別在Humanity’s Last Exam測試中,Pro版本以37.5%的無工具得分展現博士級推理水平,Deep Think模式更將該成績提升至41.0%。
開發平臺Antigravity成為本次發布亮點。該平臺集成Gemini 3 Pro、2.5 Computer Use瀏覽器控制模型及Nano Banana圖像編輯模型,賦予智能體直接操作編輯器、終端和瀏覽器的權限。實測顯示,搭載該平臺的智能體可自主完成從需求分析到代碼驗證的完整軟件開發流程,在WebDev Arena編碼測試中以1487分領跑行業,Terminal-Bench 2.0終端操作測試得分54.2%。
針對普通用戶場景,Gemini 3擴展至100萬token的上下文窗口,支持跨文本、圖像、視頻、音頻的混合處理。示例應用包括:將多語言手寫食譜自動整理為電子烹飪書,通過運動視頻生成個性化訓練計劃,以及在搜索界面直接生成交互式工具。在Vending-Bench 2模擬商業測試中,該模型全年運營決策一致性達行業最高水平,驗證其在多步驟工作流中的可靠性。
企業級部署方面,Vertex AI平臺同步更新Gemini 3接入能力,支持金融、醫療等領域的復雜推理需求。搜索服務升級后,AI模式可根據查詢動態生成沉浸式視覺布局,例如將旅游規劃查詢轉化為包含地圖、日程、預算的整合界面。谷歌透露,AI Overviews月活躍用戶已達20億,Gemini應用月活突破6.5億,新模型將通過“全棧式AI”策略深化生態整合。
技術文檔顯示,Deep Think模式在ARC-AGI-2測試中取得45.1%的突破性成績,該測試要求模型通過代碼執行解決新穎問題。盡管在SWE-bench Verified軟件工程基準中以76.2%落后于Claude sonnet 4.5的78.1%,但谷歌強調其代碼自我驗證能力可顯著降低人工審核成本。目前開發者可通過Gemini CLI、Vertex AI及Antigravity平臺調用新模型,企業客戶需聯系銷售團隊獲取定制化部署方案。











