近期,人工智能領域開源模型與閉源模型的競爭愈發激烈,開源模型一度面臨被拉開差距的壓力。不過,一家名為DeepSeek的公司憑借新發布的兩款模型,為開源陣營注入強勁動力,引發行業高度關注。
此次發布的兩款模型分別為DeepSeek V3.2和DeepSeek-V3.2-Speciale。其中,DeepSeek V3.2展現出與GPT-5相當的實力,而高性能版DeepSeek-V3.2-Speciale更是表現亮眼,直接超越GPT系列,與被視為閉源模型天花板的Gemini系列打成平手。不僅如此,這兩款模型還在IMO 2025(國際數學奧林匹克)、CMO 2025(中國數學奧林匹克)等一系列權威賽事中斬獲金牌,成績斐然。
值得一提的是,這是DeepSeek今年第九次發布新模型,盡管備受期待的R2模型尚未現身,但此次發布的新模型已足夠令人驚喜。人們不禁好奇,DeepSeek究竟是如何憑借更小的數據量和更少的顯卡資源,打造出能與國際巨頭抗衡的模型?
深入探究發現,DeepSeek為達成這一目標,在技術層面進行了諸多創新。首先,他們將稀疏注意力(DSA)技術正式應用于主力模型。稀疏注意力并非首次出現,在之前的V3.2-EXP版本中,DeepSeek僅對其進行測試,驗證其對模型性能的影響,如今則將其全面融入主力模型。在日常使用大模型時,用戶常遇到這樣的問題:隨著對話內容增多,模型回答逐漸混亂,甚至直接拒絕繼續交流。這源于大模型原生注意力機制的缺陷,在該機制下,每個新生成的token都要與之前所有token進行計算,導致句子長度增加時,模型計算量呈平方級增長,例如句子長度翻倍,計算量增至四倍,長度變為三倍,計算量則變為九倍,嚴重影響模型處理長文本的能力。而稀疏注意力技術相當于為大模型添加了固定頁數的“目錄”,幫助模型篩選重點內容。此后,模型只需計算當前token與“目錄”的關系,如同閱讀時先看目錄,再根據興趣深入閱讀相應章節,從而顯著提升大模型處理長文本的能力。相關數據表明,隨著句子長度增加,傳統V3.1模型的推理成本不斷攀升,而采用稀疏注意力的V3.2模型推理成本則基本保持穩定,有效降低了計算資源消耗。
除了優化注意力機制,DeepSeek還高度重視開源模型的后訓練工作。大模型的訓練過程類似于人類的學習歷程,大規模預訓練如同從小學到高二的知識積累階段,無論是閉源模型還是開源模型,在此階段都需全面學習各類知識。然而,在高考沖刺階段,即模型的后訓練階段,閉源模型通常會投入大量資源,采用強化學習等方法進行針對性訓練,以提升模型在特定任務上的表現。相比之下,開源模型在此階段的投入相對較少,導致模型雖具備基礎能力,但在解決復雜問題時表現欠佳。為彌補這一短板,DeepSeek設計了一套全新的強化學習協議,在預訓練結束后,投入超過總訓練算力10%的資源對模型進行強化訓練,有效提升了模型應對復雜問題的能力。同時,DeepSeek還推出了擅長長時間思考的特殊版本——DeepSeek V3.2 Speciale。傳統大模型因上下文長度限制,在訓練過程中會對深度思考內容進行標注懲罰,思考內容過長則扣分。而DeepSeek V3.2 Speciale取消了這一限制,鼓勵模型自由思考,充分發揮其潛力,最終使其能夠與Gemini 3一較高下。
在智能體能力方面,DeepSeek同樣不遺余力。一方面,為提升模型基礎能力,DeepSeek構建虛擬環境,合成大量數據用于輔助訓練。具體而言,DeepSeek-V3.2使用了24667個真實代碼環境任務、50275個真實搜索任務、4417個合成通用agent場景以及5908個真實代碼解釋任務進行后訓練。另一方面,DeepSeek優化了模型調用工具的流程。此前幾代模型存在一個明顯問題:將思考與調用工具過程分離,模型調用外部工具后,需重新構建推理鏈,導致效率低下,即使是簡單查詢,如詢問日期,模型也需從頭開始推理。為解決這一問題,DeepSeek對模型架構進行改進,在工具調用過程中,模型的思考過程得以保留,工具調用記錄和結果也會像聊天記錄一樣保留在上下文中,僅在用戶提出新問題時重置推理鏈,大大提高了模型使用工具的效率。
盡管DeepSeek的新模型取得顯著進步,但仍存在一些不足。例如,在與Gemini 3 Pro的對比測試中,面對同一道復雜題目,Gemini 3 Pro僅需4972個Tokens即可給出答案,而DeepSeek V3.2 Speciale則需要8077個Tokens,消耗量高出近六成。不過,從成本角度看,DeepSeek具有明顯優勢。在該測試中,DeepSeek 8000多個Tokens僅花費0.0032美元,而Gemini 3 Pro不到5000個Tokens卻消耗0.06美元,成本高出約20倍。這一對比凸顯出DeepSeek在性價比方面的競爭力。
在開源模型與閉源模型差距逐漸擴大的背景下,DeepSeek憑借持續的技術創新和優化策略,不斷縮小這一差距。其一系列舉措,如從V2的MoE架構,到V3的多頭潛在注意力(MLA),再到如今DeepSeek Math V2的自驗證機制以及V3.2的稀疏注意力(DSA),都展現出其在算法研究方面的深厚實力。DeepSeek致力于在有限數據資源的基礎上,挖掘更多智能潛力,為人工智能領域的發展提供了新的思路和方向。人們不禁期待,DeepSeek未來還將帶來哪些驚喜,尤其是備受矚目的R2模型何時能夠亮相。











