DeepSeek近日正式推出兩款大模型——V3.2標準版與V3.2-Speciale深度思考版,憑借多項技術創新與性能突破引發行業關注。官方測試數據顯示,V3.2在128k長文本場景中與GPT-5表現相當,部分任務甚至實現超越;而定位高端的V3.2-Speciale則在MMLU知識測試、Humaneval代碼生成等基準中與Gemini3Pro持平,更在IMO2025數學競賽盲測中以83.3分達到金牌分數線,成為首個在該賽事中達標的開源模型。
核心技術層面,DeepSeek團隊通過“轉正稀疏注意力”(DSA)機制實現重大突破。該機制采用類似“目錄”的動態路由算法,將傳統注意力計算從二次復雜度O(n2)優化至線性復雜度O(n),顯存占用減少40%的同時,推理速度提升2.2倍。這一改進使得單張消費級顯卡即可處理百萬級token的長文本,成為首個實現該能力的開源模型。技術白皮書顯示,DSA架構通過動態分配計算資源,在保持核心信息處理能力的前提下,大幅降低冗余計算開銷。
訓練策略方面,研發團隊將超過10%的集群算力專項投入強化學習階段,創新采用“組對強化學習(GRPO)+多數投票”機制。該方案通過構建多個模型協作組進行交叉驗證,顯著提升代碼生成、數學推理及工具調用等復雜任務的表現。測試表明,V3.2-Speciale在取消“思考長度懲罰”后,輸出token數量較Gemini3Pro增加32%,但關鍵任務準確率反而提升4.8個百分點,展現出更強的深度推理能力。
開源生態建設成為此次發布的另一焦點。DeepSeek同步在GitHub與Hugging Face平臺開放模型權重下載,采用Apache2.0協議允許商業應用。更值得關注的是,團隊承諾后續將開源DSA長文本內核與強化學習訓練框架,計劃將閉源模型的核心優勢轉化為開源社區的基礎設施。行業分析師指出,此舉可能加速全球AI技術普惠進程,推動長文本處理與復雜推理能力在更多場景落地。
目前,兩款模型已支持多模態交互與工具調用,在金融分析、科研文獻處理等長文本密集型領域展現出應用潛力。部分早期測試用戶反饋,V3.2-Speciale在處理超長法律文書時,既能保持上下文連貫性,又能精準提取關鍵條款,綜合效率較前代提升近60%。隨著開源生態的持續完善,這場由技術創新驅動的模型競賽正進入新階段。









