人工智能領域再迎重要進展,DeepSeek團隊近日推出兩款全新模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale。這兩款模型在性能表現上直追行業標桿GPT-5和Gemini 3.0 Pro,且采用開放權重模式,引發全球開發者社區的廣泛關注。技術報告顯示,新模型在數學推理、代碼生成等復雜任務中展現出顯著優勢,同時在計算效率方面取得突破性進展。
核心架構層面,DeepSeek-V3.2延續了前代模型的多頭潛在注意力機制(MLA),該技術通過壓縮鍵值張量實現內存占用優化。研究團隊在此基礎上創新性地引入稀疏注意力機制(DSA),構建出由閃電索引器(Lightning Indexer)和令牌選擇器組成的雙層結構。閃電索引器利用壓縮表示計算令牌相關性分數,令牌選擇器則基于分數篩選出最具價值的上下文片段。這種設計使模型在處理長序列時,計算復雜度從平方級降至線性級,推理速度提升40%以上。
數學推理能力是本次升級的重點突破方向。研發團隊專門構建了DeepSeekMath V2驗證系統,該系統包含證明生成器、驗證器和元驗證器三個模塊。證明生成器負責輸出數學證明,驗證器通過強化學習訓練獲得評分能力,元驗證器則對驗證器的判斷進行二次校驗。這種分層驗證機制有效解決了傳統強化學習模型"正確答案錯誤推理"的缺陷,在奧數基準測試中達到金牌水平。自我修正算法的引入使模型能夠通過多輪迭代持續優化解答,實驗顯示8次迭代后準確率提升17%。
訓練方法論方面,研究團隊對群體相對策略優化算法(GRPO)進行系統性改進。針對數學推理任務,模型采用零KL懲罰策略,允許更激進的策略更新;在通用任務中則保留KL正則項以維持訓練穩定性。異策略序列掩碼技術通過過濾偏離策略的樣本,使梯度更新更加精準。混合專家路由機制確保訓練階段與推理階段的專家激活模式一致,有效解決模型漂移問題。這些優化使GRPO在保持原始框架的基礎上,訓練效率提升25%。
DeepSeek-V3.2-Speciale作為擴展思維變體,在強化學習階段僅使用推理數據集進行訓練。通過取消長度懲罰項,模型生成響應的平均長度增加3倍,在復雜邏輯推理任務中展現出更強的解題能力。技術報告顯示,該變體在數學競賽題上的得分率較標準版提升12%,但推理成本增加45%。這種性能與效率的權衡,為不同應用場景提供了靈活選擇。
行業分析指出,DeepSeek新模型的發布標志著開放權重模型在推理能力上達到新高度。其創新的稀疏注意力架構和分層驗證機制,為解決大模型計算效率與性能平衡問題提供了新思路。特別值得注意的是,研究團隊同步開源了模型代碼和訓練日志,這種透明化做法將加速技術迭代進程。隨著生態系統的逐步完善,開發者社區有望在智能助手、自動化編程等領域催生更多創新應用。












