人工智能領域迎來重要進展,DeepSeek近日發布兩款全新模型——DeepSeek-V3.2及其長思考增強版DeepSeek-V3.2-Speciale。這兩款模型在推理、智能體等多項基準測試中表現優異,成為當前開源模型中性能最強的代表,部分指標甚至達到國際領先水平。
標準版DeepSeek-V3.2在公開推理類測試中展現出強大實力,其表現已接近GPT-5,僅略遜于Gemini-3.0-Pro。與Kimi-K2-Thinking相比,V3.2的輸出長度顯著縮短,計算開銷和用戶等待時間均大幅降低。該模型還首次將思考模式融入工具使用,支持思考與非思考兩種工具調用方式,在智能體評測中達到開源模型最高水平,且未針對測試工具進行特殊訓練,顯示出較強的泛化能力。
長思考增強版DeepSeek-V3.2-Speciale結合了DeepSeek-Math-V2的定理證明能力,在指令跟隨、數學證明和邏輯驗證方面表現突出。在主流推理基準測試中,其性能可與Gemini-3.0-Pro媲美。該版本在國際頂級學術競賽中取得突破性成績,斬獲IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌,其中ICPC與IOI成績分別達到人類選手第二名和第十名的水平。不過,由于該版本消耗的Tokens更多、成本較高,目前僅供研究使用,不支持工具調用,也未針對日常對話和寫作任務進行優化。
針對開源模型與專有模型差距擴大的問題,DeepSeek團隊分析認為,主要限制因素包括:原始注意力機制在長序列處理效率上的不足、訓練后階段算力投入不足,以及智能體應用場景中泛化能力和指令遵循能力的滯后。為解決這些問題,DeepSeek提出三項創新方案:引入高效的稀疏注意力機制DSA,開發可擴展的強化學習協議,以及設計促進工具使用場景泛化推理的新流程。
DSA機制通過閃電索引器快速篩選重要token,僅對關鍵token進行詳細分析,將注意力復雜度從平方級降低為近似線性增長。這種設計在保持模型質量的同時,顯著提升了長序列推理效率。在H800 GPU上的測試顯示,DeepSeek-V3.2實現了顯著的端到端加速,在短上下文場景下也通過專門掩碼模式進一步提升了效率。
在后訓練階段,DeepSeek采用專家蒸餾與混合式強化學習相結合的方法。團隊從同一基礎檢查點出發,為數學、編程、邏輯推理等六類專業任務訓練專屬模型,再將這些專家的能力匯聚到統一大模型中。混合式強化學習則采用GRPO算法,將推理、智能體與人類對齊的訓練整合到同一階段,避免災難性遺忘。為解決思考模式與工具使用的結合問題,團隊設計了新的上下文管理機制,確保模型在多輪工具調用中保持推理連續性。
目前,DeepSeek官方網頁端、App和API均已更新為DeepSeek-V3.2正式版,Speciale版本則以臨時API服務形式開放供社區評測與研究。兩款模型的技術報告和開源代碼已在模型庫平臺發布,供研究人員下載使用。
盡管DeepSeek-V3.2在計算效率與推理能力之間取得了平衡,但團隊也承認其存在局限性。由于整體訓練計算量較少,該模型的世界知識廣度仍落后于領先專有模型;在token效率方面,通常需要更長的生成軌跡才能達到相似輸出質量;在解決復雜任務方面,與前沿模型相比仍有提升空間。這些挑戰將成為未來迭代優化的重點方向。











