科技媒體ZDNet近日發(fā)布報(bào)道稱,OpenAI正式推出全新AI評(píng)估基準(zhǔn)GDPval,旨在通過真實(shí)經(jīng)濟(jì)場(chǎng)景任務(wù)衡量前沿模型的實(shí)用價(jià)值,填補(bǔ)學(xué)術(shù)測(cè)試與商業(yè)應(yīng)用之間的性能斷層。該基準(zhǔn)覆蓋美國(guó)GDP貢獻(xiàn)最大的九大行業(yè),涉及44個(gè)職業(yè)的1320項(xiàng)具體任務(wù),所有測(cè)試內(nèi)容均由平均從業(yè)14年的領(lǐng)域?qū)<以O(shè)計(jì),確保任務(wù)復(fù)雜度與真實(shí)工作場(chǎng)景高度契合。
針對(duì)當(dāng)前AI工具市場(chǎng)存在的"理論性能強(qiáng)、實(shí)際應(yīng)用弱"矛盾,OpenAI研發(fā)團(tuán)隊(duì)特別設(shè)計(jì)了多模態(tài)評(píng)估體系。與傳統(tǒng)僅依賴文本輸入的測(cè)試不同,GDPval要求模型完成文件處理、幻燈片制作、文檔格式化等跨模態(tài)任務(wù),更全面地檢驗(yàn)AI在真實(shí)辦公環(huán)境中的綜合能力。首輪測(cè)試中,研究團(tuán)隊(duì)邀請(qǐng)行業(yè)專家對(duì)GPT-5、GPT-4o、Claude Opus 4.1和Gemini 2.5 Pro等主流模型的輸出進(jìn)行盲評(píng)。
測(cè)試結(jié)果呈現(xiàn)差異化競(jìng)爭(zhēng)格局:Anthropic的Claude Opus 4.1憑借出色的文檔美學(xué)設(shè)計(jì)(包括排版布局、視覺呈現(xiàn)等維度)獲得綜合評(píng)分第一;OpenAI自家的GPT-5則在專業(yè)領(lǐng)域知識(shí)準(zhǔn)確性方面表現(xiàn)最優(yōu)。這種分工式優(yōu)勢(shì)反映出現(xiàn)階段AI模型在不同應(yīng)用場(chǎng)景中的專業(yè)化發(fā)展趨勢(shì)。
成本效率對(duì)比數(shù)據(jù)引發(fā)行業(yè)關(guān)注。研究顯示,前沿AI模型完成GDPval指定任務(wù)的速度達(dá)到人類專家的100倍,而單次任務(wù)成本僅為人工的百分之一。不過OpenAI特別說明,該數(shù)據(jù)僅包含模型推理階段的直接成本,未計(jì)入實(shí)際應(yīng)用中必需的人工審核、多次迭代和系統(tǒng)集成等環(huán)節(jié)產(chǎn)生的隱性成本。
作為初期版本,GDPval仍存在明顯局限。當(dāng)前評(píng)估主要針對(duì)獨(dú)立任務(wù)的一次性完成情況,難以衡量模型處理多輪修改需求、應(yīng)對(duì)模糊指令或執(zhí)行動(dòng)態(tài)交互任務(wù)的能力。例如在需要依據(jù)客戶反饋持續(xù)優(yōu)化方案、處理異常數(shù)據(jù)等復(fù)雜場(chǎng)景中,現(xiàn)有評(píng)估體系尚無法有效量化模型表現(xiàn)。
針對(duì)這些不足,OpenAI研發(fā)團(tuán)隊(duì)表示后續(xù)迭代將擴(kuò)大行業(yè)覆蓋范圍,增加需要人類判斷的復(fù)雜任務(wù)類型,并計(jì)劃開放部分測(cè)試數(shù)據(jù)集供學(xué)術(shù)界研究使用。這種動(dòng)態(tài)優(yōu)化機(jī)制反映出AI評(píng)估體系正朝著更貼近商業(yè)實(shí)戰(zhàn)的方向演進(jìn)。











