人工智能領域迎來重大突破,DeepSeek團隊近日在Hugging Face平臺發布了全新數學推理模型DeepSeek-Math-V2。該模型在定理證明能力上實現質的飛躍,不僅超越了Gemini DeepThink等主流模型,更在國際數學奧林匹克競賽(IMO)級別的測試中達到金牌標準。
研發團隊在論文中指出,現有AI數學模型普遍存在"重結果輕過程"的缺陷。傳統訓練方式僅以最終答案正確性作為評判標準,導致模型在復雜證明題中常出現"邏輯跳躍"或"隱含假設"等問題。針對這一痛點,DeepSeek創新性地提出"自我驗證"訓練框架,通過構建生成器-驗證器協同進化系統,使模型具備自主審查推理過程的能力。
該系統包含三個核心組件:首先訓練具備專業評審能力的驗證器,能對證明過程進行三級評分(1分完美、0.5分存在瑕疵、0分錯誤)并撰寫詳細評語;其次引入元驗證機制,通過雙重檢查確保評分合理性;最后開發具備自省能力的生成器,在輸出答案時必須同步進行自我評估,誠實指出潛在錯誤。這種設計形成閉環訓練體系,使模型在不斷自我修正中提升推理嚴謹性。
實驗數據顯示,DeepSeek-Math-V2在多項權威基準測試中表現卓越。在包含60道證明題的IMO-ProofBench測試集中,基礎子集得分接近99%,顯著領先其他模型;在高級子集雖略遜于Gemini DeepThink,但已達到IMO金牌選手水平。更令人矚目的是,該模型在Putnam 2024數學競賽測試中取得118/120的接近滿分成績,刷新了AI數學解題紀錄。
技術實現層面,研究團隊突破傳統強化學習框架,不再依賴答案正確性作為唯一獎勵信號。通過構建驗證器與生成器的協同進化機制,模型在訓練過程中自動生成高難度樣本,形成"以戰養戰"的持續提升模式。這種創新方法不僅減少了對人工標注數據的依賴,更有效抑制了大模型的幻覺問題,使推理過程具備可解釋性。
該成果在學術界引發廣泛關注。專家指出,DeepSeek-Math-V2的自我驗證框架為AI數學推理開辟了新方向,其過程導向的訓練方法有望推廣至物理、計算機科學等需要嚴格證明的領域。目前研究團隊已公開模型代碼和論文,供全球研究者共同探索可驗證推理的更多可能性。











