剛剛,Gemini 3的Deep Think 模式終于正式上線了。
顧名思義,這是 Gemini 3 的深度思考模式,推理能力顯著加強, 能處理復雜、多步驟,以及更多創新的問題,還可以搞定超難的科學問題和數學題!
是 ARC-AGI、HLE等
多項權威測評中的第一名
先來看看Gemini 3 Deep Think是怎么一回事。
在公認的大模型最難測試之一、全球最接近“通用智能(AGI)核心能力”驗證的基準測試ARC-AGI中,Gemini 3 Deep Think 在 2 個榜單中均拔得頭籌。
其中,ARC-AGI-1主要測模型的基礎抽象推理。在這項測試中,Gemini 3 Deep Think 的答題正確率排第一,達到了 87.5%,打敗了 GPT-5 系列、Claude Opus 4.5 等。
ARC-AGI-2則將任務升級為多步驟、遞歸、隱藏規則等,是更接近“類人智慧”的高階推理場景。
其中,Gemini 3 Deep Think 正確率達45.1%,比非深度思考模式的 Gemini 3 Pro(正確率 31.1%)高出了 14%。而在這項測試中,GPT-5 Pro 的正確率僅有18.3%。
Gemini 3 Deep Think 在人類最后考試(Humanity’s Last Exam,HLE)和GPQA Diamond這兩個高難度評測中也都取得了第一名。
HLE 是谷歌 DeepMind 設計的一項綜合性推理測試,用于檢驗模型在跨學科問題、復雜邏輯、多步驟推理等方面的真實智能水平,難度遠高于傳統選擇題式的 benchmark。
而 GPQA Diamond 則聚焦量子物理、統計力學等高階科學問題,被視為檢驗模型是否具備“研究級科學理解力”的金標準。
Deep Think 在這兩項測試中都取得領先成績,說明它不僅在抽象推理上顯著提升,還具備更強的科學知識推斷與深度理解能力。
不過,目前 Gemini 3 的 Deep Think 模式只向 Google AI Ultra 訂閱用戶開放。
在社交媒體上,Gemini 3 的這個新功能引起了網友的熱議。
有網友對其 Deep Think 模式的測試成果豎起大拇指:
“HLI 和 ARC 的收益率都超過 40%,這很棒。”
有網友表示,Deep Think 的調試與代碼推理能力,已經超過現有大多數模型:
“Gemini 3 Deep Think 成功解決了那個讓我耗費好幾天的 stack underflow bug。它給出的答案比 Opus 4.5 更明確,而后者是唯一一個也能解出這個問題的公開模型(甚至 Gemini 3 Pro 都失敗了)。
Deep Think 甚至能自信地指出 bug 的確切位置。不過,它運行確實很慢......”
還有人大贊 Gemini 3 Deep Think““創意場景推理””能力:
“這是我在這個提示(創意場景推理)上獲得過的最佳輸出之一,完全是前所未見的水準。”
不過也有人提出,雖然 Gemini 3 的實際使用效果并沒有那么好,希望能趕緊優化 AGI 的相關功能。
DeepMind 將成立新的
Gemini 研究團隊
今天谷歌 DeepMind 宣布,將在新加坡成立全新的 Gemini 研究團隊。
帶隊人是 95 后華人科學家 Yi Tay,他分享稱,這個新團隊將專注于高級推理、LLM/RL 以及改進 Gemini、Gemini Deep Think 等前沿 SOTA 模型。
這個團隊,將向 Google Brain(現在 Google DeepMind 的前身之一)的創始成員之一 Quoc Le 匯報。
他還提到,谷歌 DeepMind 在美國總部 Mountain View 的團隊,近期已經憑借 Gemini Deep Think,在 IMO 和 ICPC 兩項國際數學奧林匹克競賽中斬獲金牌,并在 Gemini 項目的其他諸多重要進展中發揮了關鍵作用。
有趣的是,Yi Tay 還分享了一張他用 Nano Banana 生成的一張新加坡 Gemini 新團隊“辦公大樓”的趣味插畫。圖中匯集了新加坡的標志性建筑:濱海灣花園、魚尾獅、濱海灣金沙酒店... 以及“Gemini Team”大樓。
關于 Yi Tay 其人:他不僅是一位“高產”的學術研究者,在 Google Scholar 上的論文引用量達數萬次,還在 Gemini 項目的諸多進展中發揮關鍵作用。
至于這個新團隊,據 Yi Tay 介紹,團隊的規模不會很大,但人才密度極高,過去幾個月正在招募全球最頂尖的人才。
同時,他們還將與 AI 領域的不少傳奇大佬合作,包括 Google Brain 傳奇科學家 Quoc Le、“推理之王”Denny Zhou;以及深度架構大師 Mostafa Dehghani,就是 nano banana 背后的男人,還有 Transformers 發明人之一 Noam Shazeer 等等。
不少當代行業頂尖人才輸送新鮮血液,如生成式檢索共同奠基者 Victor Tran、IMO 金牌紀錄保持者 Lê Minh Thang、自洽性與 CoT 提出者薛之、以及日本代表性 AI 學者 Shane Gu 等,可謂星光熠熠。
雖然新團隊的具體成員還未暴露,但回顧 Gemini 團隊的誕生始末,也能略窺一二。
Gemini 團隊誕生于 2023 年谷歌的 AI 大重組——當時 Google 將負責大模型研究的Google Brain,與負責通用智能探索DeepMind,合并為新的 Google DeepMind。
旨在把最強科研與最強工程整合,打造可與 GPT 系列正面競爭的下一代基礎模型。
合并后首個戰略動作,就是成立 Gemini 團隊:一個覆蓋算法設計、超大規模訓練、多模態系統構建,到產品化落地的 全鏈路超級團隊。
Gemini 團隊一口氣推出 Ultra、Pro、Flash 三大全系模型,將 Gemini 推向全球數十億用戶,正式成為谷歌 AI 的王牌引擎。
One More Thing
還有值得一提的,谷歌最近新動作頻頻,昨天還正式推出的Google Workspace Studio。
以前,郵件看不過來、日程排不完、文檔數據要手動整理...... 這些每天都在消耗上班族的注意力。但從現在開始,它們都可以被 AI 接管。
Workspace Studio 深度整合了谷歌的辦公全家桶(Gmail 郵件、Docs 文檔、Sheets 表格、Drive 云端硬盤、Chat 聊天、Calendar 日歷),不寫代碼、幾分鐘就能做出自己的 AI Agent——從簡單提醒到跨系統流程自動化,全都可以交給 AI 跑。
Workspace Studio 基于谷歌最強大的Gemini 3,具備推理、多模態理解和跨應用調用能力。你只需給它一個示例,它就能自動執行復雜辦公任務:情感分析、內容生成、優先級排序、智能通知……統統自動化。
網友們紛紛表示贊嘆,確實解決了痛點問題,恨不得馬上使用。









