在人工智能領(lǐng)域,數(shù)學(xué)推理能力的突破一直是備受矚目的焦點(diǎn)。近日,DeepSeek在Hugging Face平臺悄然開源了一款名為DeepSeek-Math-V2的數(shù)學(xué)模型,這一動作迅速引發(fā)了行業(yè)內(nèi)外的廣泛關(guān)注。該模型不僅成為行業(yè)首個達(dá)到國際奧林匹克數(shù)學(xué)競賽(IMO)金牌水平且開源的模型,更在數(shù)學(xué)推理能力上展現(xiàn)出了卓越的實力。
根據(jù)同步發(fā)布的技術(shù)論文,DeepSeek-Math-V2在多個基準(zhǔn)測試中表現(xiàn)優(yōu)異。在IMO-ProofBench基準(zhǔn)測試中,該模型在Basic子集上的得分接近99%,遠(yuǎn)超其他同類模型。相比之下,谷歌旗下的Gemini DeepThink(IMO Gold)在該子集上的分?jǐn)?shù)為89%,位列第二。不過,在難度更高的Advanced子集上,Math-V2的分?jǐn)?shù)為61.9%,略低于Gemini DeepThink的65.7%。盡管如此,這一成績依然證明了Math-V2在復(fù)雜數(shù)學(xué)推理任務(wù)中的強(qiáng)大能力。
論文指出,大語言模型在數(shù)學(xué)推理方面已經(jīng)取得了顯著進(jìn)展,但當(dāng)前的研究仍存在一定局限。許多模型以最終答案的正確性作為獎勵機(jī)制,然而,正確的答案并不總能保證推理過程的嚴(yán)謹(jǐn)性。尤其是在定理證明等需要嚴(yán)格分步推導(dǎo)的數(shù)學(xué)任務(wù)中,最終答案獎勵機(jī)制往往難以適用。為了突破這一瓶頸,DeepSeek團(tuán)隊提出,自我驗證是擴(kuò)展測試時間計算的關(guān)鍵,尤其是對于那些沒有已知解決方案的開放問題。
基于這一理念,DeepSeek-Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向,專注于提升模型的定理證明能力。與依賴大量數(shù)學(xué)題答案數(shù)據(jù)的傳統(tǒng)模型不同,Math-V2通過教會AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程,實現(xiàn)了在沒有人類干預(yù)的情況下持續(xù)提升解決高難度數(shù)學(xué)證明題的能力。這一創(chuàng)新方法不僅提高了模型的推理嚴(yán)謹(jǐn)性,也為其在數(shù)學(xué)領(lǐng)域的進(jìn)一步應(yīng)用奠定了基礎(chǔ)。
論文還提到,Math-V2在IMO 2025和CMO 2024等國際數(shù)學(xué)競賽中取得了金牌級成績,并在Putnam 2024競賽中通過擴(kuò)展測試計算實現(xiàn)了接近滿分的表現(xiàn)(118/120)。這些成績充分證明了該模型在數(shù)學(xué)推理領(lǐng)域的領(lǐng)先地位。DeepSeek團(tuán)隊認(rèn)為,盡管仍有許多挑戰(zhàn)需要克服,但可自我驗證的數(shù)學(xué)推理是一個可行的研究方向,有望推動更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)的開發(fā)。
DeepSeek此次推出的Math-V2模型不僅在技術(shù)上取得了突破,也在行業(yè)內(nèi)引發(fā)了熱烈討論。海外網(wǎng)友紛紛表示,DeepSeek的回歸令人驚喜,其以顯著優(yōu)勢擊敗谷歌的IMO Gold獲獎模型DeepThink更是超出了預(yù)期。有網(wǎng)友猜測,DeepSeek可能還隱藏著更多驚喜,例如編程模型的發(fā)布。畢竟,在行業(yè)頭部廠商紛紛迭代模型的背景下,DeepSeek的旗艦?zāi)P透聜涫芷诖?/p>
近期,AI領(lǐng)域競爭愈發(fā)激烈。11月,OpenAI發(fā)布了GPT-5.1,xAI緊隨其后推出Grok 4.1,谷歌也發(fā)布了Gemini 3系列,引發(fā)了AI圈的廣泛關(guān)注。在這樣的背景下,DeepSeek的Math-V2模型無疑為行業(yè)注入了新的活力。盡管外界更關(guān)注其旗艦?zāi)P偷母聞討B(tài),但Math-V2的推出已經(jīng)證明了DeepSeek在數(shù)學(xué)推理領(lǐng)域的深厚實力和創(chuàng)新能力。







