滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 業(yè)界動(dòng)態(tài) > 正文內(nèi)容

GPT-5危了，DeepSeek開(kāi)源世界首個(gè)奧數(shù)金牌AI，正面硬剛谷歌

時(shí)間：2025-11-30 02:54:28 來(lái)源：36氪編輯：快訊 IP：北京 發(fā)表評(píng)論無(wú)障礙通道

沉寂許久的DeepSeek又回來(lái)了！今天，DeepSeekMath-V2重磅登場(chǎng)，一舉奪下IMO 2025金牌，實(shí)力媲美甚至超越了谷歌的IMO金牌模型，開(kāi)源AI再次扳回一局。

DeepSeek再次歸來(lái)！

剛剛，DeepSeek重磅發(fā)布DeepSeekMath-V2新模型，一舉奪下IMO 2025金牌。

最關(guān)鍵的是，這是首款「開(kāi)源的IMO金牌模型」。

基于DeepSeek V3.2 Exp Base構(gòu)建

當(dāng)前，已官宣拿下金牌的兩大模型，一款來(lái)自谷歌Gemini Deep Think，另一款便來(lái)自O(shè)penAI的內(nèi)部模型。

在IMO-ProofBench中，DeepSeekMath-V2展現(xiàn)出強(qiáng)大的定理證明能力：

IMO 2025：破解5題（共6題），達(dá)到了金牌水平；

CMO 2024（中國(guó)數(shù)學(xué)奧林匹克）：達(dá)到金牌水平；

Putnam 2024：得分118接近滿分（120分），超越人類參賽者最高分（90分）。

不僅如此，在ProofBench-Basic上，DeepSeekMath-V2的實(shí)力碾壓谷歌金牌模型——Gemini Deep Think；在ProofBench-Advanced上直追谷歌。

論文中，團(tuán)隊(duì)訓(xùn)練了一個(gè)基于LLM驗(yàn)證器（Verifier）作為獎(jiǎng)勵(lì)函數(shù)，并以此訓(xùn)練模型以自主解決問(wèn)題。

而且，他們還Scaling了驗(yàn)證器算力，來(lái)標(biāo)注更復(fù)雜的證明，進(jìn)一步優(yōu)化了驗(yàn)證器本身。

這種方法非常巧妙，能有效彌合生成與驗(yàn)證之間的差距。

結(jié)果實(shí)證「可驗(yàn)證的數(shù)學(xué)推理」，是未來(lái)一條可行的研究方向。

DeepSeekMath-V2讓「自驗(yàn)證」成最強(qiáng)武器

DeepSeekMath-V2的論文也于GitHub同步放出了。

DeepSeek最新發(fā)布的DeepSeekMath-V2帶來(lái)的核心突破就是：自驗(yàn)證（Self-Verification）。

這不僅讓它在最難的數(shù)學(xué)競(jìng)賽中橫掃人類頂尖選手，更重要的是，它揭示了通往更高級(jí)AI的一條必經(jīng)之路——學(xué)會(huì)自我反思。

為什么只看結(jié)果是不夠的

在過(guò)去，訓(xùn)練AI做數(shù)學(xué)題的方法很簡(jiǎn)單：給它一道題，如果它算出的答案和標(biāo)準(zhǔn)答案一致，就給它獎(jiǎng)勵(lì)。

這在簡(jiǎn)單的計(jì)算題（如AIME競(jìng)賽）中很有效。

但到了數(shù)學(xué)皇冠上的明珠——國(guó)際數(shù)學(xué)奧林匹克（IMO）這個(gè)級(jí)別，這種方法就徹底失效了。

因?yàn)镮MO的題目往往沒(méi)有簡(jiǎn)單的數(shù)值答案，而是要求你寫(xiě)出一段邏輯無(wú)懈可擊的證明過(guò)程。

以前的AI在這里經(jīng)常是個(gè)「大忽悠」，它能胡編亂造一通看起來(lái)很專業(yè)的數(shù)學(xué)黑話，最后強(qiáng)行得出一個(gè)結(jié)論。雖然它可能蒙對(duì)了結(jié)果，但過(guò)程全是漏洞。

DeepSeekMath-V2決定從根本上改變規(guī)則，不僅要獎(jiǎng)勵(lì)正確的答案，更要獎(jiǎng)勵(lì)嚴(yán)謹(jǐn)?shù)摹缸晕艺也纭惯^(guò)程。

秘密武器：左右互搏的三位一體

為了實(shí)現(xiàn)這種「自我反思」，DeepSeek設(shè)計(jì)了一套精妙的「左右互搏」系統(tǒng)，就像在AI的大腦里住了三個(gè)人：

1.「做題家」（Generator，證明生成器）：

負(fù)責(zé)解題和寫(xiě)證明。

但與以往不同，它被訓(xùn)練成不僅要寫(xiě)答案，還要寫(xiě)一段「自我評(píng)價(jià)」。它必須誠(chéng)實(shí)地說(shuō)：「這步我有點(diǎn)不確定，可能是錯(cuò)的。」

研究團(tuán)隊(duì)巧妙設(shè)計(jì)了獎(jiǎng)勵(lì)，帶來(lái)了下列激勵(lì)效果：

誠(chéng)實(shí)面對(duì)錯(cuò)誤，比「硬說(shuō)自己是對(duì)的」更有利。

寫(xiě)出真正正確的證明，并準(zhǔn)確識(shí)別其嚴(yán)謹(jǐn)程度，可以獲得最高獎(jiǎng)勵(lì)。

對(duì)生成器來(lái)說(shuō)，最優(yōu)策略是：在最終回答前，發(fā)現(xiàn)并修正盡可能多的問(wèn)題。

2.「鐵面判官」（Verifier，證明驗(yàn)證器）：

這是DeepSeek專門(mén)訓(xùn)練的一個(gè)評(píng)分模型。它不看答案對(duì)不對(duì)，而是專門(mén)盯著證明過(guò)程挑刺。它會(huì)像閱卷老師一樣，給證明打分（0分、0.5分、1分），并指出具體的邏輯漏洞。

1分：證明完整且嚴(yán)謹(jǐn)，所有關(guān)鍵推理步驟都有清晰、充分的論證；

0.5分：整體思路正確，但在細(xì)節(jié)上存在輕微錯(cuò)誤或略去部分論證；

0分：存在致命邏輯錯(cuò)誤或關(guān)鍵缺口，導(dǎo)致證明在本質(zhì)上不成立。

3.「判官的審計(jì)員」（meta-Verifier，元驗(yàn)證器）：

這是最絕的一步。因?yàn)椤概泄佟挂部赡芊稿e(cuò)，或者為了省事偷懶瞎判。

于是DeepSeek又引入了一個(gè)「元驗(yàn)證」機(jī)制，專門(mén)檢查「判官」是不是在胡亂挑刺。如果「判官」指出了一個(gè)不存在的錯(cuò)誤，它會(huì)被「審計(jì)員」打手板。

「元驗(yàn)證器」來(lái)檢查驗(yàn)證器給出的分析，包括：

1. 驗(yàn)證器指出的問(wèn)題是否真實(shí)存在于原證明中；

2. 這些問(wèn)題是否足以合理支撐它給出的得分，且符合原有的評(píng)分細(xì)則。

用元驗(yàn)證器來(lái)評(píng)估驗(yàn)證器輸出分析的平均質(zhì)量分?jǐn)?shù)，從0.85提升到了0.96，同時(shí)保持了原有的打分準(zhǔn)確率。

在這三者的配合下，DeepSeekMath-V2甚至能做到在沒(méi)有標(biāo)準(zhǔn)答案的情況下，自己給自己出題、自己做、自己批改、自己重做。

首先，證明驗(yàn)證器與證明生成器之間形成了良性的「閉環(huán)」：

驗(yàn)證器為生成器提供獎(jiǎng)勵(lì)信號(hào)，從而不斷提高生成器的證明能力；

隨著生成器水平提升，它會(huì)產(chǎn)生越來(lái)越「刁鉆」的新證明，這些證明反過(guò)來(lái)又會(huì)暴露出驗(yàn)證器尚未覆蓋的薄弱點(diǎn)。

尤其是那些「驗(yàn)證器第一次嘗試沒(méi)能抓出問(wèn)題」的證明樣本，對(duì)進(jìn)一步訓(xùn)練驗(yàn)證器來(lái)說(shuō)價(jià)值極高。

為了高效獲取新證明的正確性標(biāo)簽，研究團(tuán)隊(duì)設(shè)計(jì)了自動(dòng)化標(biāo)簽生成流程：

在最后兩輪訓(xùn)練迭代中，這條全自動(dòng)標(biāo)注流水線已經(jīng)完全替代了人工標(biāo)注。后續(xù)的質(zhì)量檢查表明，自動(dòng)生成的標(biāo)簽與人類專家的判斷高度一致。

巔峰對(duì)決：DeepSeek vs Gemini

在這個(gè)領(lǐng)域，DeepSeek并不孤單。

谷歌DeepMind的Gemini Deep Think也是剛達(dá)到IMO金牌水平的頂尖選手。

兩者的對(duì)比非常有意思：

DeepMind像是擁有無(wú)盡資源的貴族，其實(shí)力毋庸置疑，在某些高級(jí)基準(zhǔn)測(cè)試（如IMO-ProofBench Advanced）上依然保持領(lǐng)先。

DeepSeek則像是半路殺出的天才少年。根據(jù)DeepSeek的論文，他們的V2模型在基礎(chǔ)測(cè)試集（ProofBench Basic）上已經(jīng)反超了Gemini Deep Think，并且在公開(kāi)的競(jìng)賽題目上展現(xiàn)出了驚人的統(tǒng)治力。

更重要的是，DeepSeek將這一技術(shù)路徑開(kāi)源并詳細(xì)披露了訓(xùn)練方法。

這為全世界的AI研究者提了個(gè)醒：通往AGI的路上，自驗(yàn)證可能比單純堆算力更重要。

直追谷歌OpenAI，開(kāi)源IMO模型贏了

這一令人驚嘆的成績(jī)背后，是DeepSeekMath-V2在實(shí)驗(yàn)中展現(xiàn)出的某種「反直覺(jué)」的進(jìn)化特征。

「一次做對(duì)」的能力：全方位碾壓GPT-5和Gemini

如果剝離掉所有復(fù)雜的反復(fù)思考和驗(yàn)證過(guò)程，只看模型的「第一直覺(jué)」——也就是所謂的One-Shot能力，DeepSeekMath-V2依然表現(xiàn)出了統(tǒng)治級(jí)的實(shí)力。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含代數(shù)、幾何、數(shù)論、組合和不等式五大類難題的內(nèi)部測(cè)試集CNML（難度對(duì)標(biāo)中國(guó)高中數(shù)學(xué)聯(lián)賽）。

在這個(gè)競(jìng)技場(chǎng)上，DeepSeekMath-V2與目前市面上最強(qiáng)的兩大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro進(jìn)行了正面硬剛。

結(jié)果如圖所示：

DeepSeekMath-V2并不是險(xiǎn)勝，而是完全勝利：

代數(shù)：遠(yuǎn)超GPT-5和Gemini；

幾何：得分幾乎是Gemini 2.5-Pro的三倍；

數(shù)論與組合：同樣穩(wěn)穩(wěn)占據(jù)第一梯隊(duì)。

這說(shuō)明，即使不給模型「多想一會(huì)兒」的機(jī)會(huì)，它的底座能力已經(jīng)極其強(qiáng)悍。

進(jìn)化的關(guān)鍵：讓模型「多想幾次」

真正讓DeepSeekMath-V2與眾不同的，是它在連續(xù)修正實(shí)驗(yàn)中的表現(xiàn)。

在面對(duì)IMO候選題（Shortlist）這種級(jí)別的難題時(shí)，模型往往無(wú)法一次性寫(xiě)出完美的證明。

實(shí)驗(yàn)顯示，如果允許模型進(jìn)行「自我驗(yàn)證」——即生成答案后，自己挑毛病，然后帶著問(wèn)題重新生成，奇跡就發(fā)生了：

初始狀態(tài)（迭代1次）：模型的平均得分為0.15。

反復(fù)思考（迭代8次）：當(dāng)允許模型最多進(jìn)行8次「自我修正」后，證明的質(zhì)量分?jǐn)?shù)飆升到了0.27。

更有趣的是，如果讓模型從自己生成的32個(gè)解法中挑一個(gè)最好的（Best@32），它的評(píng)分準(zhǔn)確度極高，得分直接躍升至0.42。

這證實(shí)了一個(gè)關(guān)鍵點(diǎn)：模型不僅能改錯(cuò)，而且非常有自知之明，它清楚地知道自己哪個(gè)答案是最好的。

暴力美學(xué)與智慧的結(jié)晶：高算力搜索

前文提到的普特南數(shù)學(xué)競(jìng)賽118分（接近滿分）的「神跡」，并非僅靠運(yùn)氣，而是得益于一種「高算力搜索」（High-Compute Search）策略。

DeepSeek團(tuán)隊(duì)在實(shí)驗(yàn)中采用了一種極端嚴(yán)苛的測(cè)試方式：

1.海量候選：對(duì)每道題初始生成64個(gè)候選證明。

2.地獄級(jí)驗(yàn)證：為每一個(gè)證明生成64個(gè)獨(dú)立的驗(yàn)證分析。

3.優(yōu)勝劣汰：只有那些能通過(guò)所有64次驗(yàn)證的證明，才會(huì)被認(rèn)為是「完全可信」的。

正是這種「千錘百煉」的策略，讓模型解決了IMO 2025中6道題里的5道，以及在CMO 2024中拿下金牌水平。

實(shí)驗(yàn)數(shù)據(jù)還揭示了一個(gè)有趣的現(xiàn)象：對(duì)于那些它沒(méi)做出來(lái)的題，模型通常能準(zhǔn)確地找出自己證明中的漏洞；而對(duì)于做出來(lái)的題，則是真真切切地通過(guò)了所有考驗(yàn)。

這是「LLM可以被訓(xùn)練成可靠的數(shù)學(xué)驗(yàn)證者」這一假設(shè)的有力實(shí)證。

DeepSeekMath-V2意味著什么

DeepSeekMath-V2的成功告訴我們，AI正在從「模仿人類說(shuō)話」進(jìn)化到「模仿人類思考」。

真正的思考，往往伴隨著自我懷疑。

當(dāng)我們看到AI開(kāi)始在輸出最終結(jié)果前，懂得停下來(lái)，對(duì)自己說(shuō)一句「這看起來(lái)不太對(duì)，我再算一遍」時(shí)，那才是它真正超越工具屬性的時(shí)刻。

11-30

AI 眼鏡，一場(chǎng)停不下來(lái)的假嗨

11-30

「電商Agent」--龐大商業(yè)化潛力的AI應(yīng)用正在「萌芽」

11-30

阿里巴巴：第二季度營(yíng)收2478億元人民幣，云智能集團(tuán)收入398.2億元

11-30

阿里巴巴蔣凡：淘寶閃購(gòu)已完成每單虧損對(duì)比七八月份降低一半既定目標(biāo)

11-30

fudi會(huì)員商店與京東秒送達(dá)成獨(dú)家戰(zhàn)略合作，全量門(mén)店已上線

11-30

阿里巴巴捐款2000萬(wàn)港元支援香港救災(zāi)

11-30

拼多多捐款1000萬(wàn)港元支援香港大埔火災(zāi)救援

11-30

阿里巴巴再戰(zhàn)社區(qū)團(tuán)購(gòu)，「源選集市」低調(diào)試點(diǎn)

11-30

抖音下線近500個(gè)本地生活服務(wù)四級(jí)類目

11-30

TikTok可能被歐盟罰款14億美元！

11-30

抖音集團(tuán)副總裁李亮：謠言治理是今年最重要工作之一

11-30

抖音電商：近半年處置5萬(wàn)條違規(guī)運(yùn)營(yíng)技巧視頻

11-30

原快手副總裁張迪加入阿里，擔(dān)任未來(lái)生活實(shí)驗(yàn)室負(fù)責(zé)人

11-30

作家莫言正式入駐小紅書(shū)，身穿魯迅同款背心

11-30

點(diǎn)擊查看更多 +

全站最新

比亞迪騰勢(shì)D9達(dá)成30萬(wàn)輛交付里程碑，“九球天后”潘曉婷喜提新車(chē)

谷歌TPUv7發(fā)起沖鋒：AI硬件領(lǐng)域挑戰(zhàn)英偉達(dá)，CUDA護(hù)城河能否守住？

鴻蒙商業(yè)增長(zhǎng)論壇落幕：新生態(tài)賦能伙伴，共繪全場(chǎng)景商業(yè)增長(zhǎng)新藍(lán)圖

銀河航天徐鳴：太空基建加速跑 6G通信與新場(chǎng)景引領(lǐng)產(chǎn)業(yè)新變革

特斯拉前高管披露：量產(chǎn)爬坡時(shí)拆解多款中國(guó)電動(dòng)車(chē)，部分車(chē)型借鑒其經(jīng)驗(yàn)

特斯拉前高管點(diǎn)贊中國(guó)電動(dòng)車(chē)：零部件復(fù)用程度高，為行業(yè)提供降本新思路

熱門(mén)內(nèi)容

本欄最新

谷歌TPUv7發(fā)起沖鋒：AI硬件領(lǐng)域挑戰(zhàn)英偉達(dá)，CUDA護(hù)城河能否守住？

特斯拉前高管披露：量產(chǎn)爬坡時(shí)拆解多款中國(guó)電動(dòng)車(chē)，部分車(chē)型借鑒其經(jīng)驗(yàn)

特斯拉前高管點(diǎn)贊中國(guó)電動(dòng)車(chē)：零部件復(fù)用程度高，為行業(yè)提供降本新思路

邁騰2026款上市！17.99萬(wàn)起售，AI座艙搭配高速NOA開(kāi)啟智慧出行

雷軍談AI賦能傳統(tǒng)產(chǎn)業(yè)：以小米汽車(chē)工廠為例，效率精度雙飛躍

雷軍透露：未來(lái)五年小米工廠將迎人形機(jī)器人大規(guī)模上崗，家庭市場(chǎng)潛力更大

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無(wú)障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽(tīng)讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

GPT-5危了，DeepSeek開(kāi)源世界首個(gè)奧數(shù)金牌AI，正面硬剛谷歌