OpenAI前首席科學家、現SSI首席執行官Ilya Sutskever在近期播客訪談中提出一個引發行業熱議的觀點:過去五年的“規模擴張時代”已接近尾聲。他指出,預訓練數據資源并非取之不盡,單純依靠增加GPU數量堆砌更大模型,即便規模擴大百倍也未必能實現質的飛躍。這一論斷被視為對“規模法則失效論”的強力支持,引發技術圈對大模型發展路徑的深度反思。
就在行業爭論未休之際,DeepSeek團隊以實際行動給出截然不同的答案。12月1日發布的V3.2及V3.2-Speciale兩款模型,通過技術報告與實測數據證明:規模化發展并未觸達天花板,只是需要轉向更精細化的優化方向。DeepSeek研究員Zhibin Gou在社交平臺公開表示,團隊耗時一年將V3系列推向極限,發現訓練瓶頸的突破關鍵在于優化方法與數據質量,而非單純依賴基礎模型升級。他特別強調:“持續擴大模型規模、數據量與強化學習投入,不應被所謂‘瓶頸論’干擾前進步伐。”
技術報告直指當前開源模型三大核心短板:傳統注意力機制導致長序列處理效率低下、后訓練階段算力投入不足、復雜場景下的泛化能力欠缺。針對這些問題,V3.2通過架構創新實現突破。該模型引入的稀疏注意力機制(DSA)將計算復雜度從O(L2)降至O(Lk),在保持性能的同時顯著提升效率。實測數據顯示,V3.2在AIME 2025數學競賽中取得93.1%的準確率,接近GPT-5的94.6%;在HMMT 2025二月賽中以92.5%超越GPT-5的88.3%;代碼生成任務LiveCodeBench上達到83.3%,與GPT-5僅相差1.2個百分點。更關鍵的是,其輸出Token量較同類模型大幅降低,成本優勢明顯。
V3.2的另一重大突破在于首次實現“思考”與“工具調用”的深度融合。傳統推理模型在深度思考模式下無法調用外部工具,而V3.2打破這一限制,支持兩種模式下的工具協同操作。技術團隊構建的Agent任務合成流水線覆蓋1800余種環境與8.5萬條復雜指令,通過“難解答、易驗證”的設計哲學,使模型在旅行規劃等任務中通過海量試錯獲得強化學習反饋。實驗表明,僅使用合成數據訓練的模型在Tau2Bench等基準測試中表現優異,而僅依賴真實環境數據的模型指標幾乎無提升,驗證了合成數據的有效性。
作為V3.2的“深度推理增強版”,Speciale模型通過放寬長度限制探索高階邏輯能力。技術報告顯示,該模型在AIME 2025任務中輸出23k tokens,遠超GPT-5 High的13k與Gemini 3.0 Pro的15k;在Codeforces編程挑戰中輸出77k tokens,達到Gemini的3.5倍。盡管輸出量激增,但得益于DSA架構與定價策略,其使用成本較GPT-5低25倍,較Gemini 3.0 Pro低30倍。Speciale的核心價值在于將數學領域驗證的“生成器-驗證器”雙模型架構遷移至通用邏輯任務,通過動態擴展驗證計算資源,實現推理過程的嚴謹性監督。這種機制使模型在代碼生成等任務中不僅追求正確答案,更注重推理鏈條的完整性。
技術報告坦承,由于總訓練算力投入較少,V3.2的世界知識廣度仍落后于閉源領先模型。但DeepSeek選擇優先打磨方法論:通過合成數據閉環與高強度強化學習挖掘后訓練潛力,而非被動等待更大規模的基礎模型。這種策略在V3.2與Speciale上已見成效——前者將自我進化機制應用于通用效率優化,后者將過程獎勵體系推向高階推理領域。兩者共同指向一個趨勢:未來模型將通過自我博弈實現持續演進,而非依賴人工標注的靜態數據集。
行業觀察者指出,DeepSeek的技術路徑具有獨特性。其過去一年在多模態統一架構、視覺壓縮記憶、長上下文效率等領域的技術積累,均基于V3基座迭代而來。若將這些已驗證的方法論應用于參數規模更大、訓練算力更充足的V4模型,可能催生具備多模態感知、長期記憶與真實環境交互能力的全新系統。當前行業更關注的是,在英偉達高端GPU對中國市場供應受限的背景下,DeepSeek如何獲取支撐下一代模型訓練的算力資源,這或將重新定義大模型競爭的技術邊界與商業邏輯。











