滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 信息流 > 正文內(nèi)容

OpenAI新基準(zhǔn)GDPval：AI模型處理真實(shí)任務(wù)，速度成本優(yōu)勢(shì)顯著但存局限

時(shí)間：2025-09-27 11:32:06 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

科技媒體ZDNet近日發(fā)布報(bào)道稱，OpenAI正式推出全新AI評(píng)估基準(zhǔn)GDPval，旨在通過真實(shí)經(jīng)濟(jì)場(chǎng)景任務(wù)衡量前沿模型的實(shí)用價(jià)值，填補(bǔ)學(xué)術(shù)測(cè)試與商業(yè)應(yīng)用之間的性能斷層。該基準(zhǔn)覆蓋美國(guó)GDP貢獻(xiàn)最大的九大行業(yè)，涉及44個(gè)職業(yè)的1320項(xiàng)具體任務(wù)，所有測(cè)試內(nèi)容均由平均從業(yè)14年的領(lǐng)域?qū)＜以O(shè)計(jì)，確保任務(wù)復(fù)雜度與真實(shí)工作場(chǎng)景高度契合。

針對(duì)當(dāng)前AI工具市場(chǎng)存在的"理論性能強(qiáng)、實(shí)際應(yīng)用弱"矛盾，OpenAI研發(fā)團(tuán)隊(duì)特別設(shè)計(jì)了多模態(tài)評(píng)估體系。與傳統(tǒng)僅依賴文本輸入的測(cè)試不同，GDPval要求模型完成文件處理、幻燈片制作、文檔格式化等跨模態(tài)任務(wù)，更全面地檢驗(yàn)AI在真實(shí)辦公環(huán)境中的綜合能力。首輪測(cè)試中，研究團(tuán)隊(duì)邀請(qǐng)行業(yè)專家對(duì)GPT-5、GPT-4o、Claude Opus 4.1和Gemini 2.5 Pro等主流模型的輸出進(jìn)行盲評(píng)。

測(cè)試結(jié)果呈現(xiàn)差異化競(jìng)爭(zhēng)格局：Anthropic的Claude Opus 4.1憑借出色的文檔美學(xué)設(shè)計(jì)（包括排版布局、視覺呈現(xiàn)等維度）獲得綜合評(píng)分第一；OpenAI自家的GPT-5則在專業(yè)領(lǐng)域知識(shí)準(zhǔn)確性方面表現(xiàn)最優(yōu)。這種分工式優(yōu)勢(shì)反映出現(xiàn)階段AI模型在不同應(yīng)用場(chǎng)景中的專業(yè)化發(fā)展趨勢(shì)。

成本效率對(duì)比數(shù)據(jù)引發(fā)行業(yè)關(guān)注。研究顯示，前沿AI模型完成GDPval指定任務(wù)的速度達(dá)到人類專家的100倍，而單次任務(wù)成本僅為人工的百分之一。不過OpenAI特別說明，該數(shù)據(jù)僅包含模型推理階段的直接成本，未計(jì)入實(shí)際應(yīng)用中必需的人工審核、多次迭代和系統(tǒng)集成等環(huán)節(jié)產(chǎn)生的隱性成本。

作為初期版本，GDPval仍存在明顯局限。當(dāng)前評(píng)估主要針對(duì)獨(dú)立任務(wù)的一次性完成情況，難以衡量模型處理多輪修改需求、應(yīng)對(duì)模糊指令或執(zhí)行動(dòng)態(tài)交互任務(wù)的能力。例如在需要依據(jù)客戶反饋持續(xù)優(yōu)化方案、處理異常數(shù)據(jù)等復(fù)雜場(chǎng)景中，現(xiàn)有評(píng)估體系尚無法有效量化模型表現(xiàn)。

針對(duì)這些不足，OpenAI研發(fā)團(tuán)隊(duì)表示后續(xù)迭代將擴(kuò)大行業(yè)覆蓋范圍，增加需要人類判斷的復(fù)雜任務(wù)類型，并計(jì)劃開放部分測(cè)試數(shù)據(jù)集供學(xué)術(shù)界研究使用。這種動(dòng)態(tài)優(yōu)化機(jī)制反映出AI評(píng)估體系正朝著更貼近商業(yè)實(shí)戰(zhàn)的方向演進(jìn)。

近日，由東湖高新區(qū)企業(yè)服務(wù)和重點(diǎn)項(xiàng)目推進(jìn)局主辦，湖北產(chǎn)融資本市場(chǎng)服務(wù)有限公司與上海意桐光電科技有限公司聯(lián)合承辦的"光谷造"系列活動(dòng)——上海光機(jī)所科研儀器設(shè)備供需對(duì)接專場(chǎng)在上海光機(jī)所舉辦。本次活動(dòng)以"小規(guī)模、…

09-27

喜鵲：智慧筑巢展現(xiàn)非凡適應(yīng)力，圓頂巢穴暗藏抵御雨雪的精妙設(shè)計(jì)

與大多數(shù)鳥類的開放式巢不同，喜鵲傾向于建造圓頂形巢，通常配有側(cè)門，巢體由泥土和苔蘚構(gòu)成，十分堅(jiān)固且設(shè)計(jì)獨(dú)特。喜鵲的適應(yīng)性非常強(qiáng)，可以選擇多種不同的筑巢地點(diǎn)，但它們偏愛棲息在高大且茂密的樹木或灌木叢中，通常選擇…

09-27

中移金科2025北京PT展秀元宇宙虹膜支付：四大特性開啟支付安全便捷新篇

中移金科推出的“元宇宙虹膜支付解決方案”深度融合空間互動(dòng)、AR引擎、場(chǎng)景商業(yè)引擎等核心技術(shù)，以VR頭顯為終端載體，打造了一種虛實(shí)結(jié)合的沉浸式購(gòu)物方式。隨著元宇宙與實(shí)體經(jīng)濟(jì)的融合不斷加深，中移金科的元宇宙虹…

09-27

跨越山海追星夢(mèng)：“益”起看星空公益研學(xué)帶偏遠(yuǎn)地區(qū)師生探秘天文世界

09-27

2.9萬年后白矮星或近太陽系？人類探索“引力彈弓”應(yīng)對(duì)宇宙挑戰(zhàn)

09-27

風(fēng)云三號(hào)H星成功發(fā)射入軌助力全球生態(tài)監(jiān)測(cè)再添“中國(guó)力量”

09-27

柏楚電子：激光切割與智能焊接雙輪驅(qū)動(dòng)，于傳統(tǒng)制造中乘勢(shì)騰飛

09-27

激光雷達(dá)訂單銷售額雙增，機(jī)器人產(chǎn)業(yè)崛起如何帶動(dòng)其走向新高峰？

09-27

谷歌Gemini Robotics-ER 1.5登場(chǎng)：為機(jī)器人注入具身推理“智慧芯”

09-27

OpenAI招募工程師構(gòu)建廣告平臺(tái)，計(jì)劃2026年借ChatGPT廣告實(shí)現(xiàn)免費(fèi)用戶變現(xiàn)

09-27

2025年9月27日我國(guó)成功發(fā)射風(fēng)云三號(hào)08星助力氣象監(jiān)測(cè)與防災(zāi)減災(zāi)

09-27

固態(tài)電池設(shè)備產(chǎn)業(yè)鏈崛起：七大核心企業(yè)引領(lǐng)擴(kuò)產(chǎn)與技術(shù)創(chuàng)新浪潮

2025年上半年，固態(tài)濕法涂布、輥壓、轉(zhuǎn)印等設(shè)備批量交付至國(guó)內(nèi)多條中試線，適應(yīng)不同類型電極材料和電解質(zhì)，支持規(guī)模化工藝創(chuàng)新。公司已與多家新能源科技企業(yè)開展戰(zhàn)略級(jí)合作，技術(shù)路線覆蓋“氧化物+鋰金屬”“硫化物+硅…

09-27

錢塘江畔電商潮涌：500萬新人入局，算法升級(jí)下的直播新生態(tài)

09-27

永輝前副總裁彭華生再出發(fā)，小優(yōu)生鮮北京首店11月啟幕，帶來新期待

09-27

川大學(xué)子與頂尖學(xué)者共探黑洞奧秘學(xué)術(shù)報(bào)告激發(fā)天文探索熱情

09-27

點(diǎn)擊查看更多 +

全站最新

雷軍演講透露陳年十年還清十億債，直播中聞“五十正是闖齡”感慨落淚

大六座安全豪華SUV騰勢(shì)N8L預(yù)售開啟，31.98萬起享家庭舒享與科技守護(hù)

全新問界M7工廠交付開啟，用戶親驗(yàn)品質(zhì)，智造升級(jí)共赴幸福新程

沃爾沃XC70上市：安全為基智能續(xù)航雙突破，能否攪動(dòng)豪華混動(dòng)風(fēng)云？

蘿卜快跑攜001號(hào)牌照亮相迪拜，RT6試乘車隊(duì)展現(xiàn)中國(guó)自動(dòng)駕駛硬實(shí)力

比亞迪方程豹鈦7驚艷登場(chǎng) 高級(jí)新能源SUV盡顯霸氣風(fēng)范

熱門內(nèi)容

本欄最新

雷軍年度演講談玄戒O1項(xiàng)目：小米造芯決心堅(jiān)定，至少十年投入500億

雷軍第99次健身打卡收官在即，年度演講與小米17系列發(fā)布同日將啟

天回航天“巧龍一號(hào)”發(fā)動(dòng)機(jī)完成超低工況熱試車，展現(xiàn)深度推力調(diào)節(jié)潛力

2025秋季搜狐視頻播主大會(huì)三亞啟幕，多元互動(dòng)共探關(guān)注流社交新生態(tài)

NVIDIA50億美元投資Intel，臺(tái)積電風(fēng)險(xiǎn)可控，先進(jìn)制程優(yōu)勢(shì)或延續(xù)至2030年

復(fù)旦團(tuán)隊(duì)繪制代謝組圖譜：解鎖疾病早期預(yù)警密碼，助力精準(zhǔn)醫(yī)療

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

OpenAI新基準(zhǔn)GDPval：AI模型處理真實(shí)任務(wù)，速度成本優(yōu)勢(shì)顯著但存局限