數學推理領域迎來重要突破,DeepSeek團隊近日推出新型模型DeepSeekMath-V2,其獨特的自我驗證訓練框架為構建可靠數學智能系統開辟了新路徑。該模型在多項國際頂級數學競賽中取得驚人成績,包括國際數學奧林匹克競賽(IMO)和中國數學奧林匹克競賽(CMO)的金牌水平,以及普特南數學競賽118/120的超高得分,充分展現了其強大的數學推理能力。
傳統強化學習方法在數學推理訓練中存在明顯短板。這類方法僅通過最終答案與標準答案的匹配程度進行獎勵,完全忽視了推理過程的質量。研究團隊指出,正確答案并不等同于正確推導,尤其在定理證明任務中,嚴格的邏輯推導過程遠比數值答案重要。針對這一難題,DeepSeekMath-V2構建了自驅動的驗證-生成閉環系統,通過兩個大語言模型(LLM)的協作實現突破性創新。
該系統的核心架構包含"作者"與"審稿人"兩個角色:一個LLM負責生成數學證明,另一個則擔任驗證器進行審查。兩者通過強化學習機制形成閉環,并引入獨特的"元驗證"層來抑制模型幻覺。實驗數據顯示,元驗證機制的引入顯著提升了驗證器的分析質量評分,同時保持了證明評分預測的準確性,實現了驗證精度與可靠性的雙重提升。這種創新設計使模型能夠自主識別證明過程中的真實缺陷,而非僅僅依賴最終答案的正確性。
為解決人工標注成本高昂的問題,研究團隊開發了高效的自動化評估流程。該系統基于多層驗證機制,通過交叉檢驗與共識決策確保標注準確性。具體實施中,系統會對每個證明進行多輪獨立分析,并對識別出的問題進行二次驗證,最終依據共識結果給出質量評分。在后續訓練階段,這一自動化流程已能完全替代人工標注,其評估結果與專家判斷高度一致,為模型持續優化提供了高質量訓練數據。
這種自驅動學習生態系統的構建具有重大意義。系統通過驗證反饋直接優化生成質量,利用自動化評估處理復雜案例,并持續產生訓練數據促進迭代升級。研究顯示,該技術路徑不僅顯著降低了人力成本,更證明了在適當技術支持下,人工智能系統能夠實現自我演進與持續改進。這一發現為下一代自主學習系統的開發奠定了重要技術基礎。
基準測試結果進一步驗證了模型的領先性能。在自主構建的91個CNML級別問題測試中,DeepSeekMath-V2在代數、幾何、數論、組合學和不等式等所有類別中均超越了GPT-5-Thinking-High和Gemini 2.5-Pro等知名模型。在IMO-ProofBench基準測試中,該模型在基礎集上的人工評估結果優于DeepMind的DeepThink(IMO金牌水平),在更具挑戰性的高級集上也保持強勁競爭力,同時顯著超越其他基準模型。
特別值得關注的是驗證機制的有效性測試。對于未完全解決的問題,生成器能夠準確識別證明過程中的真實缺陷;對于完全解決的問題,則成功通過了全部64次驗證嘗試。這一結果表明,基于大語言模型的驗證器確實能夠有效評估那些傳統上被認為難以自動驗證的復雜數學證明。研究團隊表示,模型代碼與權重已在Hugging Face及GitHub平臺開源發布,期待與全球研究者共同推進數學智能系統的發展。











