国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

ITBear旗下自媒體矩陣:

GPT-5危了,DeepSeek開(kāi)源世界首個(gè)奧數(shù)金牌AI,正面硬剛谷歌

   時(shí)間:2025-11-30 02:54:28 來(lái)源:36氪編輯:快訊 IP:北京 發(fā)表評(píng)論無(wú)障礙通道
 

沉寂許久的DeepSeek又回來(lái)了!今天,DeepSeekMath-V2重磅登場(chǎng),一舉奪下IMO 2025金牌,實(shí)力媲美甚至超越了谷歌的IMO金牌模型,開(kāi)源AI再次扳回一局。

DeepSeek再次歸來(lái)!

剛剛,DeepSeek重磅發(fā)布DeepSeekMath-V2新模型,一舉奪下IMO 2025金牌。

最關(guān)鍵的是,這是首款「開(kāi)源的IMO金牌模型」。

基于DeepSeek V3.2 Exp Base構(gòu)建

當(dāng)前,已官宣拿下金牌的兩大模型,一款來(lái)自谷歌Gemini Deep Think,另一款便來(lái)自O(shè)penAI的內(nèi)部模型。

在IMO-ProofBench中,DeepSeekMath-V2展現(xiàn)出強(qiáng)大的定理證明能力:

IMO 2025:破解5題(共6題),達(dá)到了金牌水平;

CMO 2024(中國(guó)數(shù)學(xué)奧林匹克):達(dá)到金牌水平;

Putnam 2024:得分118接近滿分(120分),超越人類參賽者最高分(90分)。

不僅如此,在ProofBench-Basic上,DeepSeekMath-V2的實(shí)力碾壓谷歌金牌模型——Gemini Deep Think;在ProofBench-Advanced上直追谷歌。

論文中,團(tuán)隊(duì)訓(xùn)練了一個(gè)基于LLM驗(yàn)證器(Verifier)作為獎(jiǎng)勵(lì)函數(shù),并以此訓(xùn)練模型以自主解決問(wèn)題。

而且,他們還Scaling了驗(yàn)證器算力,來(lái)標(biāo)注更復(fù)雜的證明,進(jìn)一步優(yōu)化了驗(yàn)證器本身。

這種方法非常巧妙,能有效彌合生成與驗(yàn)證之間的差距。

結(jié)果實(shí)證「可驗(yàn)證的數(shù)學(xué)推理」,是未來(lái)一條可行的研究方向。

DeepSeekMath-V2讓「自驗(yàn)證」成最強(qiáng)武器

DeepSeekMath-V2的論文也于GitHub同步放出了。

DeepSeek最新發(fā)布的DeepSeekMath-V2帶來(lái)的核心突破就是:自驗(yàn)證(Self-Verification)。

這不僅讓它在最難的數(shù)學(xué)競(jìng)賽中橫掃人類頂尖選手,更重要的是,它揭示了通往更高級(jí)AI的一條必經(jīng)之路——學(xué)會(huì)自我反思。

為什么只看結(jié)果是不夠的

在過(guò)去,訓(xùn)練AI做數(shù)學(xué)題的方法很簡(jiǎn)單:給它一道題,如果它算出的答案和標(biāo)準(zhǔn)答案一致,就給它獎(jiǎng)勵(lì)。

這在簡(jiǎn)單的計(jì)算題(如AIME競(jìng)賽)中很有效。

但到了數(shù)學(xué)皇冠上的明珠——國(guó)際數(shù)學(xué)奧林匹克(IMO)這個(gè)級(jí)別,這種方法就徹底失效了。

因?yàn)镮MO的題目往往沒(méi)有簡(jiǎn)單的數(shù)值答案,而是要求你寫(xiě)出一段邏輯無(wú)懈可擊的證明過(guò)程。

以前的AI在這里經(jīng)常是個(gè)「大忽悠」,它能胡編亂造一通看起來(lái)很專業(yè)的數(shù)學(xué)黑話,最后強(qiáng)行得出一個(gè)結(jié)論。雖然它可能蒙對(duì)了結(jié)果,但過(guò)程全是漏洞。

DeepSeekMath-V2決定從根本上改變規(guī)則,不僅要獎(jiǎng)勵(lì)正確的答案,更要獎(jiǎng)勵(lì)嚴(yán)謹(jǐn)?shù)摹缸晕艺也纭惯^(guò)程。

秘密武器:左右互搏的三位一體

為了實(shí)現(xiàn)這種「自我反思」,DeepSeek設(shè)計(jì)了一套精妙的「左右互搏」系統(tǒng),就像在AI的大腦里住了三個(gè)人:

1.「做題家」(Generator,證明生成器):

負(fù)責(zé)解題和寫(xiě)證明。

但與以往不同,它被訓(xùn)練成不僅要寫(xiě)答案,還要寫(xiě)一段「自我評(píng)價(jià)」。它必須誠(chéng)實(shí)地說(shuō):「這步我有點(diǎn)不確定,可能是錯(cuò)的。」

研究團(tuán)隊(duì)巧妙設(shè)計(jì)了獎(jiǎng)勵(lì),帶來(lái)了下列激勵(lì)效果:

誠(chéng)實(shí)面對(duì)錯(cuò)誤,比「硬說(shuō)自己是對(duì)的」更有利。

寫(xiě)出真正正確的證明,并準(zhǔn)確識(shí)別其嚴(yán)謹(jǐn)程度,可以獲得最高獎(jiǎng)勵(lì)。

對(duì)生成器來(lái)說(shuō),最優(yōu)策略是:在最終回答前,發(fā)現(xiàn)并修正盡可能多的問(wèn)題。

2.「鐵面判官」(Verifier,證明驗(yàn)證器):

這是DeepSeek專門(mén)訓(xùn)練的一個(gè)評(píng)分模型。它不看答案對(duì)不對(duì),而是專門(mén)盯著證明過(guò)程挑刺。它會(huì)像閱卷老師一樣,給證明打分(0分、0.5分、1分),并指出具體的邏輯漏洞。

1分:證明完整且嚴(yán)謹(jǐn),所有關(guān)鍵推理步驟都有清晰、充分的論證;

0.5分:整體思路正確,但在細(xì)節(jié)上存在輕微錯(cuò)誤或略去部分論證;

0分:存在致命邏輯錯(cuò)誤或關(guān)鍵缺口,導(dǎo)致證明在本質(zhì)上不成立。

3.「判官的審計(jì)員」(meta-Verifier,元驗(yàn)證器):

這是最絕的一步。因?yàn)椤概泄佟挂部赡芊稿e(cuò),或者為了省事偷懶瞎判。

于是DeepSeek又引入了一個(gè)「元驗(yàn)證」機(jī)制,專門(mén)檢查「判官」是不是在胡亂挑刺。如果「判官」指出了一個(gè)不存在的錯(cuò)誤,它會(huì)被「審計(jì)員」打手板。

「元驗(yàn)證器」來(lái)檢查驗(yàn)證器給出的分析,包括:

1. 驗(yàn)證器指出的問(wèn)題是否真實(shí)存在于原證明中;

2. 這些問(wèn)題是否足以合理支撐它給出的得分,且符合原有的評(píng)分細(xì)則。

用元驗(yàn)證器來(lái)評(píng)估驗(yàn)證器輸出分析的平均質(zhì)量分?jǐn)?shù),從0.85提升到了0.96,同時(shí)保持了原有的打分準(zhǔn)確率。

在這三者的配合下,DeepSeekMath-V2甚至能做到在沒(méi)有標(biāo)準(zhǔn)答案的情況下,自己給自己出題、自己做、自己批改、自己重做。

首先,證明驗(yàn)證器與證明生成器之間形成了良性的「閉環(huán)」:

驗(yàn)證器為生成器提供獎(jiǎng)勵(lì)信號(hào),從而不斷提高生成器的證明能力;

隨著生成器水平提升,它會(huì)產(chǎn)生越來(lái)越「刁鉆」的新證明,這些證明反過(guò)來(lái)又會(huì)暴露出驗(yàn)證器尚未覆蓋的薄弱點(diǎn)。

尤其是那些「驗(yàn)證器第一次嘗試沒(méi)能抓出問(wèn)題」的證明樣本,對(duì)進(jìn)一步訓(xùn)練驗(yàn)證器來(lái)說(shuō)價(jià)值極高。

為了高效獲取新證明的正確性標(biāo)簽,研究團(tuán)隊(duì)設(shè)計(jì)了自動(dòng)化標(biāo)簽生成流程:

在最后兩輪訓(xùn)練迭代中,這條全自動(dòng)標(biāo)注流水線已經(jīng)完全替代了人工標(biāo)注。后續(xù)的質(zhì)量檢查表明,自動(dòng)生成的標(biāo)簽與人類專家的判斷高度一致。

巔峰對(duì)決:DeepSeek vs Gemini

在這個(gè)領(lǐng)域,DeepSeek并不孤單。

谷歌DeepMind的Gemini Deep Think也是剛達(dá)到IMO金牌水平的頂尖選手。

兩者的對(duì)比非常有意思:

DeepMind像是擁有無(wú)盡資源的貴族,其實(shí)力毋庸置疑,在某些高級(jí)基準(zhǔn)測(cè)試(如IMO-ProofBench Advanced)上依然保持領(lǐng)先。

DeepSeek則像是半路殺出的天才少年。根據(jù)DeepSeek的論文,他們的V2模型在基礎(chǔ)測(cè)試集(ProofBench Basic)上已經(jīng)反超了Gemini Deep Think,并且在公開(kāi)的競(jìng)賽題目上展現(xiàn)出了驚人的統(tǒng)治力。

更重要的是,DeepSeek將這一技術(shù)路徑開(kāi)源并詳細(xì)披露了訓(xùn)練方法。

這為全世界的AI研究者提了個(gè)醒:通往AGI的路上,自驗(yàn)證可能比單純堆算力更重要。

直追谷歌OpenAI,開(kāi)源IMO模型贏了

這一令人驚嘆的成績(jī)背后,是DeepSeekMath-V2在實(shí)驗(yàn)中展現(xiàn)出的某種「反直覺(jué)」的進(jìn)化特征。

「一次做對(duì)」的能力:全方位碾壓GPT-5和Gemini

如果剝離掉所有復(fù)雜的反復(fù)思考和驗(yàn)證過(guò)程,只看模型的「第一直覺(jué)」——也就是所謂的One-Shot能力,DeepSeekMath-V2依然表現(xiàn)出了統(tǒng)治級(jí)的實(shí)力。

研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含代數(shù)、幾何、數(shù)論、組合和不等式五大類難題的內(nèi)部測(cè)試集CNML(難度對(duì)標(biāo)中國(guó)高中數(shù)學(xué)聯(lián)賽)。

在這個(gè)競(jìng)技場(chǎng)上,DeepSeekMath-V2與目前市面上最強(qiáng)的兩大推理模型——OpenAI的GPT-5-Thinking-High和谷歌DeepMind的Gemini 2.5-Pro進(jìn)行了正面硬剛。

結(jié)果如圖所示:

DeepSeekMath-V2并不是險(xiǎn)勝,而是完全勝利:

代數(shù):遠(yuǎn)超GPT-5和Gemini;

幾何:得分幾乎是Gemini 2.5-Pro的三倍;

數(shù)論與組合:同樣穩(wěn)穩(wěn)占據(jù)第一梯隊(duì)。

這說(shuō)明,即使不給模型「多想一會(huì)兒」的機(jī)會(huì),它的底座能力已經(jīng)極其強(qiáng)悍。

進(jìn)化的關(guān)鍵:讓模型「多想幾次」

真正讓DeepSeekMath-V2與眾不同的,是它在連續(xù)修正實(shí)驗(yàn)中的表現(xiàn)。

在面對(duì)IMO候選題(Shortlist)這種級(jí)別的難題時(shí),模型往往無(wú)法一次性寫(xiě)出完美的證明。

實(shí)驗(yàn)顯示,如果允許模型進(jìn)行「自我驗(yàn)證」——即生成答案后,自己挑毛病,然后帶著問(wèn)題重新生成,奇跡就發(fā)生了:

初始狀態(tài)(迭代1次):模型的平均得分為0.15。

反復(fù)思考(迭代8次):當(dāng)允許模型最多進(jìn)行8次「自我修正」后,證明的質(zhì)量分?jǐn)?shù)飆升到了0.27。

更有趣的是,如果讓模型從自己生成的32個(gè)解法中挑一個(gè)最好的(Best@32),它的評(píng)分準(zhǔn)確度極高,得分直接躍升至0.42。

這證實(shí)了一個(gè)關(guān)鍵點(diǎn):模型不僅能改錯(cuò),而且非常有自知之明,它清楚地知道自己哪個(gè)答案是最好的。

暴力美學(xué)與智慧的結(jié)晶:高算力搜索

前文提到的普特南數(shù)學(xué)競(jìng)賽118分(接近滿分)的「神跡」,并非僅靠運(yùn)氣,而是得益于一種「高算力搜索」(High-Compute Search)策略。

DeepSeek團(tuán)隊(duì)在實(shí)驗(yàn)中采用了一種極端嚴(yán)苛的測(cè)試方式:

1.海量候選:對(duì)每道題初始生成64個(gè)候選證明。

2.地獄級(jí)驗(yàn)證:為每一個(gè)證明生成64個(gè)獨(dú)立的驗(yàn)證分析。

3.優(yōu)勝劣汰:只有那些能通過(guò)所有64次驗(yàn)證的證明,才會(huì)被認(rèn)為是「完全可信」的。

正是這種「千錘百煉」的策略,讓模型解決了IMO 2025中6道題里的5道,以及在CMO 2024中拿下金牌水平。

實(shí)驗(yàn)數(shù)據(jù)還揭示了一個(gè)有趣的現(xiàn)象:對(duì)于那些它沒(méi)做出來(lái)的題,模型通常能準(zhǔn)確地找出自己證明中的漏洞;而對(duì)于做出來(lái)的題,則是真真切切地通過(guò)了所有考驗(yàn)。

這是「LLM可以被訓(xùn)練成可靠的數(shù)學(xué)驗(yàn)證者」這一假設(shè)的有力實(shí)證。

DeepSeekMath-V2意味著什么

DeepSeekMath-V2的成功告訴我們,AI正在從「模仿人類說(shuō)話」進(jìn)化到「模仿人類思考」。

真正的思考,往往伴隨著自我懷疑。

當(dāng)我們看到AI開(kāi)始在輸出最終結(jié)果前,懂得停下來(lái),對(duì)自己說(shuō)一句「這看起來(lái)不太對(duì),我再算一遍」時(shí),那才是它真正超越工具屬性的時(shí)刻。

 
 
更多>同類資訊
全站最新
熱門(mén)內(nèi)容
網(wǎng)站首頁(yè)  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级
一本一道综合狠狠老| 日本中文在线一区| 精品国产露脸精彩对白 | 久久久久一区二区三区四区| 欧美一区二区三区不卡| 在线成人高清不卡| 欧美日韩夫妻久久| 欧美一区二区免费| 日韩精品资源二区在线| 久久欧美中文字幕| 中文字幕成人av| 国产亚洲一本大道中文在线| 欧美精品一区男女天堂| 久久精品一区二区三区av| 国产欧美日韩三区| 一区二区在线观看免费视频播放 | 国产福利精品一区| 国产成a人亚洲精| 91黄色小视频| 精品国产91久久久久久久妲己| 日韩精品一区二区三区视频在线观看| 2022国产精品视频| 亚洲永久精品国产| 国产美女视频91| 在线视频亚洲一区| 国产色一区二区| 午夜精品久久久久| www.66久久| 欧美一区二区三区视频免费| 国产精品不卡在线| 欧美日韩一级黄| 亚洲欧美国产高清| 亚洲一区二区三区中文字幕 | 久久蜜桃av一区精品变态类天堂| 国产色综合一区| 91理论电影在线观看| 免费成人在线观看| 91视频在线看| 精品1区2区在线观看| 亚洲国产精品嫩草影院| 国产曰批免费观看久久久| 欧美日韩中文字幕一区二区| 国产精品久线观看视频| 国产一区二区主播在线| 91麻豆精品国产91久久久资源速度| 国产精品天干天干在观线| 精品一区二区三区在线播放视频| 欧美日韩亚洲高清一区二区| 中文字幕在线不卡视频| 国产美女精品一区二区三区| 制服丝袜一区二区三区| 亚洲国产欧美一区二区三区丁香婷| 国产不卡视频一区二区三区| 精品成人佐山爱一区二区| 日韩精品一二区| 欧美猛男男办公室激情| 一区二区在线观看视频在线观看| 成人在线综合网| 国产女人18毛片水真多成人如厕| 国产一区三区三区| 国产欧美综合在线| 国产suv一区二区三区88区| 久久精品在这里| 丁香网亚洲国际| 亚洲精品菠萝久久久久久久| 91激情在线视频| 亚洲第一搞黄网站| 欧美一级久久久久久久大片| 免费观看成人鲁鲁鲁鲁鲁视频| 精品视频色一区| 九九精品一区二区| 中文字幕中文字幕中文字幕亚洲无线| 高清视频一区二区| 一区二区三区欧美日| 欧美日韩日日夜夜| 国产精品一区二区三区99| 亚洲国产精品精华液ab| 欧美性大战久久久久久久| 日韩激情一二三区| 久久久久9999亚洲精品| 成人高清av在线| 偷偷要91色婷婷| 国产三级三级三级精品8ⅰ区| 色视频成人在线观看免| 欧美aa在线视频| 久久久久9999亚洲精品| 欧美吻胸吃奶大尺度电影| 久久不见久久见免费视频7| 国产精品久久久久天堂| 欧美一级欧美三级| av日韩在线网站| 寂寞少妇一区二区三区| 亚洲一区中文在线| 日本一二三不卡| 日韩一级免费观看| 91美女在线观看| 国产毛片一区二区| 青青草国产成人99久久| 亚洲欧美激情在线| 国产嫩草影院久久久久| 日韩午夜在线观看视频| 欧美在线free| 99视频超级精品| 国产盗摄视频一区二区三区| 日本亚洲最大的色成网站www| 亚洲色欲色欲www| 久久久久九九视频| 91麻豆精品久久久久蜜臀| 91老师国产黑色丝袜在线| 福利一区二区在线| 精品一区二区三区免费播放| 亚洲伊人伊色伊影伊综合网| 国产精品二区一区二区aⅴ污介绍| 日韩欧美一卡二卡| 欧美特级限制片免费在线观看| 国产女主播视频一区二区| 国产成人h网站| 亚洲欧美日韩国产成人精品影院 | 天天综合色天天综合| 成人激情校园春色| 懂色av一区二区在线播放| 另类成人小视频在线| 奇米888四色在线精品| 亚洲电影欧美电影有声小说| 亚洲va欧美va人人爽午夜| 亚洲a一区二区| 日本欧美大码aⅴ在线播放| 日日夜夜精品视频天天综合网| 亚洲综合在线观看视频| 又紧又大又爽精品一区二区| 亚洲一区在线观看网站| 日韩二区三区四区| 国精产品一区一区三区mba视频 | 国产欧美精品一区二区色综合朱莉| 日韩免费在线观看| 国产日韩欧美麻豆| 一区二区三区在线看| 亚洲va韩国va欧美va| 麻豆精品国产91久久久久久| 国产成人免费视频网站高清观看视频| 成人一区二区在线观看| 在线视频亚洲一区| www国产成人免费观看视频 深夜成人网 | 韩日av一区二区| 色综合天天视频在线观看| 欧美一级xxx| 中文成人综合网| 日本欧美肥老太交大片| 97精品久久久午夜一区二区三区| 欧美精品一二三四| 中文字幕日韩av资源站| 另类小说一区二区三区| 91丨九色丨蝌蚪丨老版| 精品国产乱码久久久久久免费| 国产精品福利电影一区二区三区四区| 性感美女久久精品| jizzjizzjizz欧美| 欧美精品一区二区三区四区 | 久久欧美中文字幕| 夜夜嗨av一区二区三区四季av| 久久精品国产99久久6| 色综合色综合色综合| 久久久三级国产网站| 丝袜美腿亚洲综合| 欧洲精品一区二区| 亚洲日本丝袜连裤袜办公室| 国产毛片精品国产一区二区三区| 欧美精品在线一区二区| 亚洲夂夂婷婷色拍ww47| 成人黄色综合网站| 国产欧美一区二区三区鸳鸯浴 | 欧美mv日韩mv亚洲| 午夜亚洲国产au精品一区二区| 成人污污视频在线观看| 精品国免费一区二区三区| 日产国产高清一区二区三区| 欧美日韩中文国产| 一区二区三区四区av| 色又黄又爽网站www久久| 国产精品黄色在线观看| 粉嫩欧美一区二区三区高清影视| 日韩欧美国产一区二区三区 | 亚洲精品免费在线播放| 成人黄色电影在线| 国产精品免费免费| av在线不卡免费看| 亚洲免费三区一区二区| 色视频一区二区| 亚洲国产日产av| 欧美一区二区三区在线观看视频| 丝袜亚洲另类丝袜在线| 8x8x8国产精品| 国产一区在线视频| 国产精品传媒在线| 97久久人人超碰| 亚洲mv大片欧洲mv大片精品| 精品日本一线二线三线不卡| 国产福利91精品一区| 国产精品色噜噜| 欧美一区二区三区视频在线观看|