沉寂許久的DeepSeek又回來(lái)了!今天,DeepSeekMath-V2重磅登場(chǎng),一舉奪下IMO 2025金牌,實(shí)力媲美甚至超越了谷歌的IMO金牌模型,開(kāi)源AI再次扳回一局。
DeepSeek再次歸來(lái)!
剛剛,DeepSeek重磅發(fā)布DeepSeekMath-V2新模型,一舉奪下IMO 2025金牌。
最關(guān)鍵的是,這是首款「開(kāi)源的IMO金牌模型」。
基于DeepSeek V3.2 Exp Base構(gòu)建
當(dāng)前,已官宣拿下金牌的兩大模型,一款來(lái)自谷歌Gemini Deep Think,另一款便來(lái)自O(shè)penAI的內(nèi)部模型。
在IMO-ProofBench中,DeepSeekMath-V2展現(xiàn)出強(qiáng)大的定理證明能力:
IMO 2025:破解5題(共6題),達(dá)到了金牌水平;
CMO 2024(中國(guó)數(shù)學(xué)奧林匹克):達(dá)到金牌水平;
Putnam 2024:得分118接近滿分(120分),超越人類參賽者最高分(90分)。
不僅如此,在ProofBench-Basic上,DeepSeekMath-V2的實(shí)力碾壓谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上直追谷歌。
論文中,團(tuán)隊(duì)訓(xùn)練了一個(gè)基于LLM驗(yàn)證器(Verifier)作為獎(jiǎng)勵(lì)函數(shù),并以此訓(xùn)練模型以自主解決問(wèn)題。
而且,他們還Scaling了驗(yàn)證器算力,來(lái)標(biāo)注更復(fù)雜的證明,進(jìn)一步優(yōu)化了驗(yàn)證器本身。
這種方法非常巧妙,能有效彌合生成與驗(yàn)證之間的差距。
結(jié)果實(shí)證「可驗(yàn)證的數(shù)學(xué)推理」,是未來(lái)一條可行的研究方向。
DeepSeekMath-V2讓「自驗(yàn)證」成最強(qiáng)武器DeepSeekMath-V2的論文也于GitHub同步放出了。
DeepSeek最新發(fā)布的DeepSeekMath-V2帶來(lái)的核心突破就是:自驗(yàn)證(Self-Verification)。
這不僅讓它在最難的數(shù)學(xué)競(jìng)賽中橫掃人類頂尖選手,更重要的是,它揭示了通往更高級(jí)AI的一條必經(jīng)之路——學(xué)會(huì)自我反思。
為什么只看結(jié)果是不夠的在過(guò)去,訓(xùn)練AI做數(shù)學(xué)題的方法很簡(jiǎn)單:給它一道題,如果它算出的答案和標(biāo)準(zhǔn)答案一致,就給它獎(jiǎng)勵(lì)。
這在簡(jiǎn)單的計(jì)算題(如AIME競(jìng)賽)中很有效。
但到了數(shù)學(xué)皇冠上的明珠——國(guó)際數(shù)學(xué)奧林匹克(IMO)這個(gè)級(jí)別,這種方法就徹底失效了。
因?yàn)镮MO的題目往往沒(méi)有簡(jiǎn)單的數(shù)值答案,而是要求你寫(xiě)出一段邏輯無(wú)懈可擊的證明過(guò)程。
以前的AI在這里經(jīng)常是個(gè)「大忽悠」,它能胡編亂造一通看起來(lái)很專業(yè)的數(shù)學(xué)黑話,最后強(qiáng)行得出一個(gè)結(jié)論。雖然它可能蒙對(duì)了結(jié)果,但過(guò)程全是漏洞。
DeepSeekMath-V2決定從根本上改變規(guī)則,不僅要獎(jiǎng)勵(lì)正確的答案,更要獎(jiǎng)勵(lì)嚴(yán)謹(jǐn)?shù)摹缸晕艺也纭惯^(guò)程。
秘密武器:左右互搏的三位一體為了實(shí)現(xiàn)這種「自我反思」,DeepSeek設(shè)計(jì)了一套精妙的「左右互搏」系統(tǒng),就像在AI的大腦里住了三個(gè)人:
1.「做題家」(Generator,證明生成器):
負(fù)責(zé)解題和寫(xiě)證明。
但與以往不同,它被訓(xùn)練成不僅要寫(xiě)答案,還要寫(xiě)一段「自我評(píng)價(jià)」。它必須誠(chéng)實(shí)地說(shuō):「這步我有點(diǎn)不確定,可能是錯(cuò)的。」
研究團(tuán)隊(duì)巧妙設(shè)計(jì)了獎(jiǎng)勵(lì),帶來(lái)了下列激勵(lì)效果:
誠(chéng)實(shí)面對(duì)錯(cuò)誤,比「硬說(shuō)自己是對(duì)的」更有利。
寫(xiě)出真正正確的證明,并準(zhǔn)確識(shí)別其嚴(yán)謹(jǐn)程度,可以獲得最高獎(jiǎng)勵(lì)。
對(duì)生成器來(lái)說(shuō),最優(yōu)策略是:在最終回答前,發(fā)現(xiàn)并修正盡可能多的問(wèn)題。
2.「鐵面判官」(Verifier,證明驗(yàn)證器):
這是DeepSeek專門(mén)訓(xùn)練的一個(gè)評(píng)分模型。它不看答案對(duì)不對(duì),而是專門(mén)盯著證明過(guò)程挑刺。它會(huì)像閱卷老師一樣,給證明打分(0分、0.5分、1分),并指出具體的邏輯漏洞。
1分:證明完整且嚴(yán)謹(jǐn),所有關(guān)鍵推理步驟都有清晰、充分的論證;
0.5分:整體思路正確,但在細(xì)節(jié)上存在輕微錯(cuò)誤或略去部分論證;
0分:存在致命邏輯錯(cuò)誤或關(guān)鍵缺口,導(dǎo)致證明在本質(zhì)上不成立。
3.「判官的審計(jì)員」(meta-Verifier,元驗(yàn)證器):
這是最絕的一步。因?yàn)椤概泄佟挂部赡芊稿e(cuò),或者為了省事偷懶瞎判。
于是DeepSeek又引入了一個(gè)「元驗(yàn)證」機(jī)制,專門(mén)檢查「判官」是不是在胡亂挑刺。如果「判官」指出了一個(gè)不存在的錯(cuò)誤,它會(huì)被「審計(jì)員」打手板。
「元驗(yàn)證器」來(lái)檢查驗(yàn)證器給出的分析,包括:
1. 驗(yàn)證器指出的問(wèn)題是否真實(shí)存在于原證明中;
2. 這些問(wèn)題是否足以合理支撐它給出的得分,且符合原有的評(píng)分細(xì)則。
用元驗(yàn)證器來(lái)評(píng)估驗(yàn)證器輸出分析的平均質(zhì)量分?jǐn)?shù),從0.85提升到了0.96,同時(shí)保持了原有的打分準(zhǔn)確率。
在這三者的配合下,DeepSeekMath-V2甚至能做到在沒(méi)有標(biāo)準(zhǔn)答案的情況下,自己給自己出題、自己做、自己批改、自己重做。
首先,證明驗(yàn)證器與證明生成器之間形成了良性的「閉環(huán)」:
驗(yàn)證器為生成器提供獎(jiǎng)勵(lì)信號(hào),從而不斷提高生成器的證明能力;
隨著生成器水平提升,它會(huì)產(chǎn)生越來(lái)越「刁鉆」的新證明,這些證明反過(guò)來(lái)又會(huì)暴露出驗(yàn)證器尚未覆蓋的薄弱點(diǎn)。
尤其是那些「驗(yàn)證器第一次嘗試沒(méi)能抓出問(wèn)題」的證明樣本,對(duì)進(jìn)一步訓(xùn)練驗(yàn)證器來(lái)說(shuō)價(jià)值極高。
為了高效獲取新證明的正確性標(biāo)簽,研究團(tuán)隊(duì)設(shè)計(jì)了自動(dòng)化標(biāo)簽生成流程:
在最后兩輪訓(xùn)練迭代中,這條全自動(dòng)標(biāo)注流水線已經(jīng)完全替代了人工標(biāo)注。后續(xù)的質(zhì)量檢查表明,自動(dòng)生成的標(biāo)簽與人類專家的判斷高度一致。
巔峰對(duì)決:DeepSeek vs Gemini在這個(gè)領(lǐng)域,DeepSeek并不孤單。
谷歌DeepMind的Gemini Deep Think也是剛達(dá)到IMO金牌水平的頂尖選手。
兩者的對(duì)比非常有意思:
DeepMind像是擁有無(wú)盡資源的貴族,其實(shí)力毋庸置疑,在某些高級(jí)基準(zhǔn)測(cè)試(如IMO-ProofBench Advanced)上依然保持領(lǐng)先。
DeepSeek則像是半路殺出的天才少年。根據(jù)DeepSeek的論文,他們的V2模型在基礎(chǔ)測(cè)試集(ProofBench Basic)上已經(jīng)反超了Gemini Deep Think,并且在公開(kāi)的競(jìng)賽題目上展現(xiàn)出了驚人的統(tǒng)治力。
更重要的是,DeepSeek將這一技術(shù)路徑開(kāi)源并詳細(xì)披露了訓(xùn)練方法。
這為全世界的AI研究者提了個(gè)醒:通往AGI的路上,自驗(yàn)證可能比單純堆算力更重要。
直追谷歌OpenAI,開(kāi)源IMO模型贏了這一令人驚嘆的成績(jī)背后,是DeepSeekMath-V2在實(shí)驗(yàn)中展現(xiàn)出的某種「反直覺(jué)」的進(jìn)化特征。
「一次做對(duì)」的能力:全方位碾壓GPT-5和Gemini如果剝離掉所有復(fù)雜的反復(fù)思考和驗(yàn)證過(guò)程,只看模型的「第一直覺(jué)」——也就是所謂的One-Shot能力,DeepSeekMath-V2依然表現(xiàn)出了統(tǒng)治級(jí)的實(shí)力。
研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含代數(shù)、幾何、數(shù)論、組合和不等式五大類難題的內(nèi)部測(cè)試集CNML(難度對(duì)標(biāo)中國(guó)高中數(shù)學(xué)聯(lián)賽)。
在這個(gè)競(jìng)技場(chǎng)上,DeepSeekMath-V2與目前市面上最強(qiáng)的兩大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro進(jìn)行了正面硬剛。
結(jié)果如圖所示:
DeepSeekMath-V2并不是險(xiǎn)勝,而是完全勝利:
代數(shù):遠(yuǎn)超GPT-5和Gemini;
幾何:得分幾乎是Gemini 2.5-Pro的三倍;
數(shù)論與組合:同樣穩(wěn)穩(wěn)占據(jù)第一梯隊(duì)。
這說(shuō)明,即使不給模型「多想一會(huì)兒」的機(jī)會(huì),它的底座能力已經(jīng)極其強(qiáng)悍。
進(jìn)化的關(guān)鍵:讓模型「多想幾次」真正讓DeepSeekMath-V2與眾不同的,是它在連續(xù)修正實(shí)驗(yàn)中的表現(xiàn)。
在面對(duì)IMO候選題(Shortlist)這種級(jí)別的難題時(shí),模型往往無(wú)法一次性寫(xiě)出完美的證明。
實(shí)驗(yàn)顯示,如果允許模型進(jìn)行「自我驗(yàn)證」——即生成答案后,自己挑毛病,然后帶著問(wèn)題重新生成,奇跡就發(fā)生了:
初始狀態(tài)(迭代1次):模型的平均得分為0.15。
反復(fù)思考(迭代8次):當(dāng)允許模型最多進(jìn)行8次「自我修正」后,證明的質(zhì)量分?jǐn)?shù)飆升到了0.27。
更有趣的是,如果讓模型從自己生成的32個(gè)解法中挑一個(gè)最好的(Best@32),它的評(píng)分準(zhǔn)確度極高,得分直接躍升至0.42。
這證實(shí)了一個(gè)關(guān)鍵點(diǎn):模型不僅能改錯(cuò),而且非常有自知之明,它清楚地知道自己哪個(gè)答案是最好的。
暴力美學(xué)與智慧的結(jié)晶:高算力搜索前文提到的普特南數(shù)學(xué)競(jìng)賽118分(接近滿分)的「神跡」,并非僅靠運(yùn)氣,而是得益于一種「高算力搜索」(High-Compute Search)策略。
DeepSeek團(tuán)隊(duì)在實(shí)驗(yàn)中采用了一種極端嚴(yán)苛的測(cè)試方式:
1.海量候選:對(duì)每道題初始生成64個(gè)候選證明。
2.地獄級(jí)驗(yàn)證:為每一個(gè)證明生成64個(gè)獨(dú)立的驗(yàn)證分析。
3.優(yōu)勝劣汰:只有那些能通過(guò)所有64次驗(yàn)證的證明,才會(huì)被認(rèn)為是「完全可信」的。
正是這種「千錘百煉」的策略,讓模型解決了IMO 2025中6道題里的5道,以及在CMO 2024中拿下金牌水平。
實(shí)驗(yàn)數(shù)據(jù)還揭示了一個(gè)有趣的現(xiàn)象:對(duì)于那些它沒(méi)做出來(lái)的題,模型通常能準(zhǔn)確地找出自己證明中的漏洞;而對(duì)于做出來(lái)的題,則是真真切切地通過(guò)了所有考驗(yàn)。
這是「LLM可以被訓(xùn)練成可靠的數(shù)學(xué)驗(yàn)證者」這一假設(shè)的有力實(shí)證。
DeepSeekMath-V2意味著什么DeepSeekMath-V2的成功告訴我們,AI正在從「模仿人類說(shuō)話」進(jìn)化到「模仿人類思考」。
真正的思考,往往伴隨著自我懷疑。
當(dāng)我們看到AI開(kāi)始在輸出最終結(jié)果前,懂得停下來(lái),對(duì)自己說(shuō)一句「這看起來(lái)不太對(duì),我再算一遍」時(shí),那才是它真正超越工具屬性的時(shí)刻。








