在人工智能模型競爭愈發激烈的當下,開源模型與閉源模型的差距曾一度呈現擴大趨勢。然而,DeepSeek的最新動作,為開源模型陣營注入了一劑強心針。
12月1日,DeepSeek一次性發布了兩款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。這一舉措瞬間在行業內引發關注。DeepSeek V3.2在性能上已能與GPT-5展開激烈角逐,而高性能版的DeepSeek-V3.2-Speciale更是表現驚艷,直接超越GPT系列,與國際公認的閉源模型天花板Gemini打得難解難分。不僅如此,這兩款模型還在IMO 2025(國際數學奧林匹克)、CMO 2025(中國數學奧林匹克)等一系列權威賽事中斬獲金牌,實力不容小覷。
值得注意的是,這是DeepSeek今年發布的第九款模型。盡管備受期待的R2尚未現身,但此次兩款新模型的發布,已然展現出DeepSeek強大的技術實力和創新能力。那么,DeepSeek究竟是如何憑借更小的數據量和更少的顯卡資源,打造出能與國際巨頭抗衡的模型呢?
深入探究其背后的技術革新,會發現DeepSeek此次帶來了不少新思路。其中,稀疏注意力(DSA)的正式應用堪稱一大亮點。在之前的V3.2-EXP版本中,稀疏注意力僅處于測試階段,主要驗證其對模型性能的影響。而此次,DeepSeek果斷將其納入主力模型,為模型性能提升帶來了顯著效果。
在日常與大模型交互時,我們常常會遇到這樣的困擾:對話內容過長時,模型容易出現邏輯混亂甚至直接拒絕繼續對話的情況。這其實是傳統大模型注意力機制存在的弊端。在傳統機制下,每個新生成的token都需要與前面的所有token進行計算,這就導致句子長度與模型計算量呈平方關系增長。例如,句子長度翻倍,計算量就變為原來的四倍;長度變為三倍,計算量則飆升至九倍,極大地限制了模型處理長文本的能力。
為了解決這一問題,DeepSeek為大模型引入了類似“固定頁數目錄”的稀疏注意力機制。這一機制如同為模型提供了閱讀指南,幫助其快速定位關鍵信息。在處理文本時,模型只需計算當前token與“目錄”之間的關系,就像閱讀時先瀏覽目錄,再根據興趣深入閱讀具體章節一樣。這種改進使得模型處理長文本的能力大幅提升。從相關數據對比圖中可以明顯看出,隨著句子長度增加,采用傳統注意力機制的V3.1推理成本急劇上升,而使用稀疏注意力的V3.2則基本保持穩定,大大節省了計算資源。
除了在注意力機制上進行創新,DeepSeek還高度重視開源模型的后訓練工作。大模型的訓練過程,類似于人類從小學到高考的學習歷程。大規模預訓練階段,如同從小學到高二的知識積累,無論是閉源模型還是開源模型,都在這一階段認真“學習”。然而,到了高考沖刺階段,也就是模型的后訓練階段,閉源模型通常會投入大量資源,聘請“名師”進行強化學習,以提升模型在考試中的表現。相比之下,開源模型在這一階段的投入相對較少,導致模型雖然具備基礎能力,但在應對難題時表現欠佳。
為了彌補這一短板,DeepSeek設計了一套全新的強化學習協議。在預訓練結束后,投入超過總訓練算力10%的資源為模型進行專項訓練,相當于為開源模型也開設了“名師輔導班”。同時,DeepSeek還推出了具有超長思考能力的特殊版本——DeepSeek V3.2 Speciale。傳統大模型由于上下文長度限制,在訓練過程中會對深度思考內容進行標注懲罰,思考內容過長就會被扣分。而DeepSeek V3.2 Speciale則打破了這一限制,鼓勵模型自由思考,不受思考時長和方式的約束。這一創新使得DeepSeek V3.2 Speciale在與Gemini 3的較量中表現出色。
在智能體能力方面,DeepSeek同樣下足了功夫。一方面,為了提升模型的基礎能力,DeepSeek構建了一個虛擬環境,合成了大量數據用于輔助訓練。具體而言,DeepSeek-V3.2使用了24667個真實代碼環境任務、50275個真實搜索任務、4417個合成通用agent場景以及5908個真實代碼解釋任務進行后訓練。另一方面,DeepSeek優化了模型使用工具的流程。以往模型在調用外部工具時,會將思考過程與工具調用分割開來,導致每次調用工具后都需要重新構建推理鏈,效率低下。例如,即使是查詢“今天幾月幾號”這樣簡單的問題,模型也需要從頭開始推理。而DeepSeek V3.2對這一邏輯進行了徹底重構,在工具調用過程中,模型的思考過程得以保留,只有當用戶提出新問題時才會重置推理;工具調用記錄和結果也會像聊天記錄一樣保留在上下文中,大大提高了模型使用工具的效率。
盡管DeepSeek此次取得了一系列令人矚目的成果,但并非完美無缺。在論文中,DeepSeek坦誠地指出了自身存在的問題。例如,DeepSeek V3.2 Speciale在與谷歌Gemini 3 Pro的對決中,雖然能夠打成平手,但在回答相同問題時,DeepSeek需要消耗更多的token。通過實際測試發現,對于一道復雜題目,Gemini 3 Pro僅需4972個token就能給出答案,而DeepSeek V3.2 Speciale則需要8077個token,token消耗量高出近六成。
然而,從成本角度來看,DeepSeek依然具有明顯優勢。以剛才的測試為例,DeepSeek 8000多個token僅花費0.0032美元,而谷歌的5000個token卻需要0.06美元,成本高出約20倍。這一對比顯示出DeepSeek在性價比方面的巨大潛力。
近期,開源模型與閉源模型的差距問題備受關注。但DeepSeek憑借自身的努力和創新,不斷縮小這一差距。其一系列節省算力、優化數據的操作,讓人聯想到OpenAI前靈魂人物Ilya Sutskever的觀點。他認為,單純依靠堆砌模型參數并非長遠之計。回顧人工智能發展歷程,AlexNet僅使用兩塊GPU,Transformer實驗規模大多在8 - 64塊GPU之間,ResNet也是如此,沒有哪篇論文依賴龐大的集群才能完成。相比之下,對算法的研究同樣至關重要。DeepSeek正是沿著這一方向不斷探索,從V2的MoE架構,到V3的多頭潛在注意力(MLA),再到如今DeepSeek Math V2的自驗證機制以及V3.2的稀疏注意力(DSA),每一次進步都源于對算法的深入研究與創新,而非單純依靠參數規模的擴張。






