OpenAI前首席科學家、現SSI首席執行官伊利亞·蘇茨克維在近期播客訪談中提出,過去五年主導人工智能發展的“規模擴展時代”正接近尾聲。他指出,預訓練數據的有限性決定了單純堆疊GPU資源難以帶來質的突破,行業正從“堆算力”轉向以研究為核心的新階段,但這次研究將擁有前所未有的算力支撐。這一觀點引發了對“擴展法則失效論”的廣泛討論,而DeepSeek最新發布的V3.2和V3.2-Speciale模型,則為這場辯論提供了新的實證視角。
DeepSeek研究員古志斌在社交平臺發文稱,若將Gemini 3.0 Pro視為預訓練擴展性的證明,那么V3.2-Speciale則展示了在大規模上下文環境中強化學習的可擴展潛力。他強調,團隊通過一年時間將V3系列推向極限,發現訓練瓶頸的突破關鍵在于優化方法與數據質量,而非被動等待更強大的基礎模型。這種“主動突破”的思路,與行業普遍認為的“后訓練階段瓶頸”形成鮮明對比。
技術報告顯示,開源模型與閉源模型的性能差距正在擴大。當前開源系統存在三大短板:傳統注意力機制導致長序列處理效率低下、后訓練算力投入不足、智能體場景下的泛化能力薄弱。DeepSeek通過V3.2系列模型,針對性地提出了解決方案。其中,V3.2定位為日常主力模型,其推理能力已達到GPT-5水平:在AIME 2025數學競賽中取得93.1%的準確率(GPT-5為94.6%),HMMT 2025二月賽達92.5%(GPT-5為88.3%),LiveCodeBench代碼評測獲83.3%(GPT-5為84.5%)。更關鍵的是,該模型通過嚴格的Token約束機制,在保持性能的同時將輸出成本降低至同類產品的三分之一。
架構創新是V3.2的核心突破點。模型采用的稀疏注意力機制(DSA)將計算復雜度從O(L2)降至O(Lk),在長上下文處理中展現出顯著優勢。實驗數據顯示,V3.2在標準基準測試中與前代模型持平,但在第三方長文本評測中得分高出4分,驗證了稀疏注意力在效率與性能間的平衡能力。該模型首次實現了“思考模式”與“工具調用”的融合,突破了傳統推理模型在深度思考時無法調用外部工具的限制。
在智能體能力訓練方面,DeepSeek構建了覆蓋1800余種環境、8.5萬條復雜指令的合成數據流水線。其設計哲學強調“難解答、易驗證”——以旅行規劃任務為例,模型需在海量約束條件下生成方案,但驗證方案合規性卻相對簡單。這種特性使強化學習訓練效率大幅提升,實驗表明,僅使用合成數據訓練的模型在Tau2Bench等基準測試中表現優異,而僅依賴真實環境數據的模型則進步微弱。值得關注的是,V3.2未針對測試集進行特殊優化,其泛化能力通過開源社區評測得到驗證。
作為V3.2的“深度推理增強版”,Speciale模型通過放寬長度限制鼓勵更深入的邏輯探索。技術報告顯示,在AIME 2025任務中,Speciale輸出23k tokens,遠超GPT-5 High的13k和Gemini 3.0 Pro的15k;Codeforces代碼生成任務中,其77k的輸出量達到Gemini的3.5倍。盡管思考過程更長,但得益于DSA架構的效率優化,Speciale的實際使用成本比GPT-5低25倍,較Gemini 3.0 Pro便宜30倍。該模型整合了DeepSeekMath-V2的“生成器-驗證器”雙架構,將數學證明的過程監督機制擴展至代碼生成和通用邏輯任務,驗證了自我驗證能力的可遷移性。
技術報告坦承,由于總訓練量較少,V3.2的世界知識廣度仍落后于閉源競品。但DeepSeek選擇優先打磨方法論——通過合成數據、自我驗證和大規模強化學習,將后訓練階段的能力邊界推向新高度。這種“方法論優先”的策略已顯現成效:V3.2將自我進化工程應用于通用效率優化,Speciale則推動過程獎勵機制向高階邏輯延伸。兩者共同指向一個趨勢:未來模型將通過自我博弈實現持續演進,而非依賴人工標注的靜態數據集。
行業觀察者指出,DeepSeek的技術路徑具有獨特性。其過去一年在多模態統一架構、視覺壓縮記憶、長上下文效率等領域的創新,均基于V3基座迭代開發。若將這些驗證有效的方法論應用于參數規模更大、訓練量更多的V4模型,可能催生具備多模態感知、長期記憶和真實環境交互能力的全新系統。更引人遐想的是,在英偉達高端芯片對華出口受限的背景下,DeepSeek如何獲取支撐下一代模型訓練的算力資源,將成為觀察中國AI突破路徑的重要窗口。












