在大模型領域,一場從“參數比拼”到“能力較量”的變革正在深入推進,開源模型正以驚人的速度崛起,在多個關鍵能力維度上對頂級閉源模型發起有力沖擊,這一趨勢在近期DeepSeek發布的兩款正式版模型中得到了充分體現。
DeepSeek同步推出的DeepSeek-V3.2和DeepSeek-V3.2-Speciale兩款模型,展現出強大的實力。在推理測試中,V3.2的表現達到GPT-5的水平,與Gemini-3.0-Pro僅有微小差距;而V3.2-Speciale更是在IMO 2025等四項國際頂級競賽中斬獲金牌,成績斐然。在工具調用能力方面,V3.2達到了當前開源模型的最高水準,極大地縮小了與閉源模型之間的差距。
V3.2的出色表現源于其獨特的架構設計和創新的數據策略。它是DeepSeek首個將思考融入工具使用的模型,即便處于“思考模式”,依然支持工具調用。為了實現這一突破,公司運用大規模Agent訓練數據合成方法,精心構造了1800多個環境、85000多條復雜指令的強化學習任務,顯著提升了模型在智能體評測中的表現。Deepseek研究員茍志斌在社交平臺X上表示,Gemini-3證明了持續擴大預訓練規模的有效性,而DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展的可行性。他還提到,將DeepSeek-V3推到極限的過程中,他們得出經驗:后訓練的瓶頸應通過優化方法和數據來解決,而非單純等待更強的基礎模型。
此次V3.2取得核心飛躍,得益于兩大底層創新。其一,是兩個月前在實驗版V3.2-Exp中引入的DeepSeek Sparse Attention(DSA)稀疏注意力機制。該機制有效解決了傳統注意力機制在處理長序列時的效率瓶頸,將注意力復雜度從O(L2)降低至O(Lk),同時保持了模型性能。在架構上,DSA采用閃電索引器和細粒度Token選擇機制兩大組件。閃電索引器通過計算查詢Token與歷史Token之間的索引分數,篩選出被選中的Token;細粒度Token選擇機制則依據索引分數檢索對應的鍵值條目。該機制基于MLA的MQA模式實現,在確保計算效率的同時維持了模型表現。大量用戶對比測試表明,V3.2-Exp在各種場景中都不遜色于V3.1,稀疏注意力不僅沒有削弱模型能力,反而大幅提升了效率和響應質量,使模型能夠“看得更遠、想得更深”,同時消耗更少的計算資源。
其二,V3.2在訓練策略上實現了根本性改變。以往版本采用“直接調工具”的簡單模式,而V3.2創新性地實現了“思考+調工具”(Thinking in Tool-use)的融合機制,成為首個在“思考模式”下仍支持工具調用的模型。它不再是一遇到問題就立即調用工具,而是先進行分析、規劃,再調用工具,之后進行驗證和修正。這種模式更接近人類的“思考 - 行動 - 反思”閉環,為搜索、寫代碼、修Bug、規劃項目等復雜任務帶來了指數級的能力提升。
在數據策略方面,DeepSeek搭建了一條全新的大規模數據合成流水線,生成1800多個環境和85000多條高難度指令,專門用于強化學習。這種“冷啟動 + 大規模合成數據RL”的訓練方法,使模型在代碼修復、搜索等復雜任務場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務,模型學會了在推理過程中有機融合工具調用。這種方式的核心價值在于,不再依賴真實人類標注,而是通過構造“極限題庫”來錘煉模型能力。結果顯示,在代碼修復、搜索路徑規劃、多步驟任務中,V3.2的泛化能力大幅領先過往版本,甚至接近閉源商業模型。V3.2在思考上下文管理方面采用優化策略,歷史推理內容僅在新用戶消息引入時被丟棄,在工具相關消息添加時保持推理內容,避免了模型為每次工具調用重復推理整個問題的低效行為。
DeepSeek-V3.2采用可擴展的強化學習框架,后訓練計算預算超過預訓練成本的10%,為高級能力的釋放奠定了基礎。公司在GRPO(Group Relative Policy Optimization)算法基礎上引入多項穩定性改進,包括無偏KL估計、離策略序列掩碼、保持路由等機制。在專家蒸餾階段,為數學、編程、通用邏輯推理、智能體任務等六個專業領域開發專門模型,這些模型均支持思考和非思考模式。它們通過大規模強化學習訓練后,用于產生領域特定數據供最終檢查點使用。混合RL訓練將推理、智能體和人類對齊訓練合并為單一RL階段,有效平衡了不同領域的性能表現,同時規避了多階段訓練常見的災難性遺忘問題。對于推理和智能體任務,采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵;對于通用任務,則使用生成式獎勵模型進行評估。
在與海外幾大模型的對比中,DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面,V3.2在AIME 2025測試中達到93.1%的通過率,接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%;在HMMT 2025測試中,V3.2得分92.5%,與頂級閉源模型的差距進一步縮小。在智能體能力評測中,V3.2表現尤為突出。在代碼智能體任務SWE-Verified中獲得73.1%的解決率,在Terminal Bench 2.0中達到46.4%的準確率,顯著超越現有開源模型。在搜索智能體評估BrowseComp中,通過上下文管理技術,V3.2的通過率從51.4%提升至67.6%。在工具使用基準測試中,V3.2在τ2-Bench中獲得80.3%的通過率,在MCP-Universe中達到45.9%的成功率,且未針對這些測試集的工具進行特殊訓練,顯示出強大的泛化能力。相比之下,同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落后。
DeepSeek-V3.2的發布釋放出一個重要信號:閉源模型的絕對技術壟斷正在被打破,開源模型開始具備一線競爭力。這一變化具有三層重要意義:對于開發者而言,成本更低、可定制性更強的高性能模型已經出現;對于企業來說,不必再完全依賴海外API,也能構建強大的AI系統;對于產業而言,大模型領域的競爭從“參數規模競爭”升級為“方法創新競爭”。而DeepSeek,正站在這一變革的前沿位置。











