人工智能領域迎來新突破,DeepSeek近日在Hugging Face平臺悄然開源了一款名為DeepSeek-Math-V2的數學推理模型。該模型不僅成為行業首個達到國際奧林匹克數學競賽(IMO)金牌水平的開源項目,更在多項基準測試中展現出超越谷歌旗艦模型的實力,引發全球科技圈關注。
根據同步發布的技術論文,DeepSeek-Math-V2在IMO-ProofBench基準測試中表現亮眼。在基礎子集測試中,該模型以近99%的準確率遙遙領先,較谷歌Gemini DeepThink(IMO Gold版)89%的得分高出10個百分點。盡管在更復雜的進階子集中以61.9%略遜于對手的65.7%,但其整體性能已證明具備挑戰行業頂尖水平的實力。論文特別指出,該模型在2025年IMO預選賽和2024年中國數學奧林匹克(CMO)中均達到金牌標準,在普特南數學競賽(Putnam 2024)中更以118分(滿分120)的接近完美表現刷新紀錄。
這款模型的核心創新在于突破傳統AI的"結果導向"訓練模式。研究團隊通過構建自我驗證機制,使模型能夠像數學家般嚴格審查證明步驟,而非單純追求正確答案。這種過程導向的設計使其擺脫對海量標注數據的依賴,在無人工干預情況下持續優化解題能力。論文強調:"當面對沒有已知解的開放性問題時,這種自我驗證能力將成為擴展測試時間計算的關鍵。"
技術突破背后折射出AI數學推理的深層挑戰。當前主流模型雖能給出正確答案,卻難以保證推理過程的嚴謹性,這在需要嚴格證明的定理推導中尤為致命。DeepSeek的研究團隊通過引入可驗證的推理框架,為解決這類復雜問題提供了新思路。這種轉變不僅提升模型在數學領域的表現,更為開發通用型AI推理系統奠定基礎。
海外科技社區對這項成果反應熱烈。有網友評論稱:"當DeepSeek用10%的優勢擊敗谷歌IMO冠軍模型時,整個行業都為之震動。"更有推測認為,這家以低調著稱的機構可能還儲備著編程領域的突破性模型。值得注意的是,近期AI行業迎來密集更新潮:OpenAI推出GPT-5.1、xAI發布Grok 4.1、谷歌上線Gemini 3系列,而DeepSeek的此次動作被視為對頭部廠商的有力回應。
盡管Math-V2已展現驚人潛力,研究團隊仍保持謹慎態度。他們在論文中承認,當前模型在處理超復雜問題時仍存在局限,但自我驗證方向的可行性已得到驗證。隨著行業對AI推理能力的要求日益提高,這項突破或許將開啟數學人工智能的新紀元。市場正密切關注DeepSeek何時會放出其旗艦模型的更新版本,這家被稱作"AI鯨魚"的機構,下一步動作值得期待。





