滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌全線開掛！Gemini 3 Deep Think奪多項推理SOTA，Gemini亞洲新團隊也官宣了

時間：2025-12-06 01:12:52 來源：AI前線編輯：快訊 IP：北京 發表評論無障礙通道

剛剛，Gemini 3的Deep Think 模式終于正式上線了。

顧名思義，這是 Gemini 3 的深度思考模式，推理能力顯著加強，能處理復雜、多步驟，以及更多創新的問題，還可以搞定超難的科學問題和數學題！

是 ARC-AGI、HLE等

多項權威測評中的第一名

先來看看Gemini 3 Deep Think是怎么一回事。

在公認的大模型最難測試之一、全球最接近“通用智能（AGI）核心能力”驗證的基準測試ARC-AGI中，Gemini 3 Deep Think 在 2 個榜單中均拔得頭籌。

其中，ARC-AGI-1主要測模型的基礎抽象推理。在這項測試中，Gemini 3 Deep Think 的答題正確率排第一，達到了 87.5%，打敗了 GPT-5 系列、Claude Opus 4.5 等。

ARC-AGI-2則將任務升級為多步驟、遞歸、隱藏規則等，是更接近“類人智慧”的高階推理場景。

其中，Gemini 3 Deep Think 正確率達45.1%，比非深度思考模式的 Gemini 3 Pro（正確率 31.1%）高出了 14%。而在這項測試中，GPT-5 Pro 的正確率僅有18.3%。

Gemini 3 Deep Think 在人類最后考試（Humanity’s Last Exam，HLE）和GPQA Diamond這兩個高難度評測中也都取得了第一名。

HLE 是谷歌 DeepMind 設計的一項綜合性推理測試，用于檢驗模型在跨學科問題、復雜邏輯、多步驟推理等方面的真實智能水平，難度遠高于傳統選擇題式的 benchmark。

而 GPQA Diamond 則聚焦量子物理、統計力學等高階科學問題，被視為檢驗模型是否具備“研究級科學理解力”的金標準。

Deep Think 在這兩項測試中都取得領先成績，說明它不僅在抽象推理上顯著提升，還具備更強的科學知識推斷與深度理解能力。

不過，目前 Gemini 3 的 Deep Think 模式只向 Google AI Ultra 訂閱用戶開放。

在社交媒體上，Gemini 3 的這個新功能引起了網友的熱議。

有網友對其 Deep Think 模式的測試成果豎起大拇指：

“HLI 和 ARC 的收益率都超過 40%，這很棒。”

有網友表示，Deep Think 的調試與代碼推理能力，已經超過現有大多數模型：

“Gemini 3 Deep Think 成功解決了那個讓我耗費好幾天的 stack underflow bug。它給出的答案比 Opus 4.5 更明確，而后者是唯一一個也能解出這個問題的公開模型（甚至 Gemini 3 Pro 都失敗了）。

Deep Think 甚至能自信地指出 bug 的確切位置。不過，它運行確實很慢......”

還有人大贊 Gemini 3 Deep Think““創意場景推理””能力：

“這是我在這個提示（創意場景推理）上獲得過的最佳輸出之一，完全是前所未見的水準。”

不過也有人提出，雖然 Gemini 3 的實際使用效果并沒有那么好，希望能趕緊優化 AGI 的相關功能。

DeepMind 將成立新的

Gemini 研究團隊

今天谷歌 DeepMind 宣布，將在新加坡成立全新的 Gemini 研究團隊。

帶隊人是 95 后華人科學家 Yi Tay，他分享稱，這個新團隊將專注于高級推理、LLM/RL 以及改進 Gemini、Gemini Deep Think 等前沿 SOTA 模型。

這個團隊，將向 Google Brain（現在 Google DeepMind 的前身之一）的創始成員之一 Quoc Le 匯報。

他還提到，谷歌 DeepMind 在美國總部 Mountain View 的團隊，近期已經憑借 Gemini Deep Think，在 IMO 和 ICPC 兩項國際數學奧林匹克競賽中斬獲金牌，并在 Gemini 項目的其他諸多重要進展中發揮了關鍵作用。

有趣的是，Yi Tay 還分享了一張他用 Nano Banana 生成的一張新加坡 Gemini 新團隊“辦公大樓”的趣味插畫。圖中匯集了新加坡的標志性建筑：濱海灣花園、魚尾獅、濱海灣金沙酒店... 以及“Gemini Team”大樓。

關于 Yi Tay 其人：他不僅是一位“高產”的學術研究者，在 Google Scholar 上的論文引用量達數萬次，還在 Gemini 項目的諸多進展中發揮關鍵作用。

至于這個新團隊，據 Yi Tay 介紹，團隊的規模不會很大，但人才密度極高，過去幾個月正在招募全球最頂尖的人才。

同時，他們還將與 AI 領域的不少傳奇大佬合作，包括 Google Brain 傳奇科學家 Quoc Le、“推理之王”Denny Zhou；以及深度架構大師 Mostafa Dehghani，就是 nano banana 背后的男人，還有 Transformers 發明人之一 Noam Shazeer 等等。

不少當代行業頂尖人才輸送新鮮血液，如生成式檢索共同奠基者 Victor Tran、IMO 金牌紀錄保持者 Lê Minh Thang、自洽性與 CoT 提出者薛之、以及日本代表性 AI 學者 Shane Gu 等，可謂星光熠熠。

雖然新團隊的具體成員還未暴露，但回顧 Gemini 團隊的誕生始末，也能略窺一二。

Gemini 團隊誕生于 2023 年谷歌的 AI 大重組——當時 Google 將負責大模型研究的Google Brain，與負責通用智能探索DeepMind，合并為新的 Google DeepMind。

旨在把最強科研與最強工程整合，打造可與 GPT 系列正面競爭的下一代基礎模型。

合并后首個戰略動作，就是成立 Gemini 團隊：一個覆蓋算法設計、超大規模訓練、多模態系統構建，到產品化落地的全鏈路超級團隊。

Gemini 團隊一口氣推出 Ultra、Pro、Flash 三大全系模型，將 Gemini 推向全球數十億用戶，正式成為谷歌 AI 的王牌引擎。

One More Thing

還有值得一提的，谷歌最近新動作頻頻，昨天還正式推出的Google Workspace Studio。

以前，郵件看不過來、日程排不完、文檔數據要手動整理...... 這些每天都在消耗上班族的注意力。但從現在開始，它們都可以被 AI 接管。

Workspace Studio 深度整合了谷歌的辦公全家桶（Gmail 郵件、Docs 文檔、Sheets 表格、Drive 云端硬盤、Chat 聊天、Calendar 日歷），不寫代碼、幾分鐘就能做出自己的 AI Agent——從簡單提醒到跨系統流程自動化，全都可以交給 AI 跑。

Workspace Studio 基于谷歌最強大的Gemini 3，具備推理、多模態理解和跨應用調用能力。你只需給它一個示例，它就能自動執行復雜辦公任務：情感分析、內容生成、優先級排序、智能通知……統統自動化。

網友們紛紛表示贊嘆，確實解決了痛點問題，恨不得馬上使用。

12-06

淘寶APP首頁新增「淘寶閃購極速版」

12-06

鳴鳴很忙：「零食界拼多多」憑何練就？

12-06

京東回應外賣平臺服務管理推薦國標：自愿執行

12-06

國產GPU企業摩爾線程開盤暴漲424%

12-06

快訊！陳震微博小號也被禁言

12-06

朱雀三號回收驗證遇挫，中國商業航天邁向規模化尚需時日

藍箭航天方面表示，研制團隊將盡快開展本次試驗過程的全面復盤與技術歸零，全力查明故障原因，持續優化回收方案，在后續任務中繼續推進可重復使用驗證。但值得注意的是，實現火箭可回收也僅是商業航天走向規模化的第一步，…

12-06

朱雀三號首飛：入軌成功回收遇挫，為中國可回收火箭積累寶貴經驗

曹夢對貝殼財經記者分析稱，從網傳視頻可以看出，朱雀三號的一子級的再入控制過程十分穩定，但著陸點火階段（距地面4km左右）經歷負過載及大動壓的工況下發動機點火出現問題，導致未能成功減速并展開著陸支腿回收，略有…

12-06

豆包手機助手亮相：AI操作手機新突破，開啟移動終端新紀元

12-06

從藍到橙的蛻變：餓了么煥新淘寶閃購，開啟大消費平臺新征程

12-06

從功能到陪伴：美的“情緒空調”開啟家電情感化新時代

12-06

白酒行業遇冷：年輕人不買賬，酒企轉型能否破局迎新生？

12-06

月之暗面：于資本與技術的夾縫中突圍，IPO曙光前能否破局？

12-05

國產GPU新勢力崛起：摩爾線程科創板上市開啟全棧算力新篇章

12-05

豆包AI手機引爭議：創新突圍下，科技巨頭生態博弈何去何從？

12-05

點擊查看更多 +

全站最新

紅熊AI發布記憶熊開源產品，以記憶科學賦能大模型，降低知識遺忘率

別克至境世家高端MPV正式登場：超長續航配智能駕輔，售價43.99萬起

“餓了么”全面煥新為“淘寶閃購” 深度融入阿里“大消費平臺”戰略

吉利銀河V900增程MPV首發亮相超大空間超長續航引領出行新體驗

五菱星光L插混SUV申報信息曝光：貫穿燈組設計，提供5座6座可選布局

高鑫零售換帥李衛平，盒馬基因注入，能否引領大潤發破局突圍？

熱門內容

本欄最新

“餓了么”全面煥新為“淘寶閃購” 深度融入阿里“大消費平臺”戰略

高鑫零售換帥李衛平，盒馬基因注入，能否引領大潤發破局突圍？

fudi會員店本土化突圍：小包裝生鮮加持，10%毛利下能否走穩擴張路？

京東消金人事變動：沈建光任董事李波任董事長注冊資本達50億

合資車企轉型顯成效 2026年能否重振旗鼓再迎新發展？

東風日產N6插混轎車上市！大電池超舒適，限時權益價9.19萬起！

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

谷歌全線開掛！Gemini 3 Deep Think奪多項推理SOTA，Gemini亞洲新團隊也官宣了