人工智能領(lǐng)域正經(jīng)歷從基礎(chǔ)問答工具向深度研究伙伴的轉(zhuǎn)型,這一趨勢(shì)在最新研究中得到系統(tǒng)驗(yàn)證。由多所高校與科技企業(yè)聯(lián)合開展的評(píng)估項(xiàng)目,通過建立三維評(píng)分體系,對(duì)當(dāng)前主流的DeepResearch系統(tǒng)展開全面測(cè)評(píng),為智能研究工具的能力邊界劃定了新坐標(biāo)。
研究團(tuán)隊(duì)開發(fā)的評(píng)估框架包含質(zhì)量、冗余度、事實(shí)準(zhǔn)確性三大核心維度。質(zhì)量評(píng)估細(xì)分為全面性、連貫性、清晰度、洞察力四項(xiàng)指標(biāo),通過分解研究報(bào)告的邏輯結(jié)構(gòu)與信息密度進(jìn)行量化分析;冗余度檢測(cè)采用段落交叉比對(duì)技術(shù),精準(zhǔn)識(shí)別重復(fù)內(nèi)容;事實(shí)準(zhǔn)確性則通過證據(jù)鏈比對(duì)系統(tǒng),將每個(gè)結(jié)論與原始資料進(jìn)行交叉驗(yàn)證。這種標(biāo)準(zhǔn)化流程使AI評(píng)分與人類專家的一致性達(dá)到61.11%,形成可復(fù)制的評(píng)估范式。
在針對(duì)OpenAI、Perplexity、Gemini、Qwen四款系統(tǒng)的對(duì)比測(cè)試中,各平臺(tái)展現(xiàn)出差異化發(fā)展路徑。Qwen系統(tǒng)以5467字的適中篇幅實(shí)現(xiàn)最優(yōu)平衡,在全面性(3.80分)、洞察力(3.38分)等關(guān)鍵指標(biāo)領(lǐng)先,且69%的結(jié)論獲得證據(jù)支持。OpenAI系統(tǒng)憑借6900字的長(zhǎng)篇報(bào)告展現(xiàn)均衡實(shí)力,尤其在信息整合能力上獲得認(rèn)可。Perplexity系統(tǒng)則以1245字的精簡(jiǎn)報(bào)告形成獨(dú)特優(yōu)勢(shì),在結(jié)構(gòu)清晰度(3.60分)和冗余控制(3.71分)方面表現(xiàn)突出。Gemini系統(tǒng)雖以9200字的最長(zhǎng)報(bào)告覆蓋最多信息點(diǎn),但綜合質(zhì)量得分受篇幅影響有所下降。
測(cè)試數(shù)據(jù)揭示了研究型AI的深層發(fā)展規(guī)律。報(bào)告長(zhǎng)度與質(zhì)量并非線性相關(guān),5000-7000字區(qū)間呈現(xiàn)最佳性價(jià)比。用戶查詢特征分析顯示,科技(37.3%)和商業(yè)經(jīng)濟(jì)(17.2%)領(lǐng)域?qū)ο到y(tǒng)性研究需求最為迫切,典型問題如"固態(tài)鋰電池產(chǎn)業(yè)化路徑"等,要求AI具備跨領(lǐng)域信息整合能力。這種需求轉(zhuǎn)變倒逼技術(shù)升級(jí),傳統(tǒng)搜索模式正從"精準(zhǔn)答案提供"轉(zhuǎn)向"多維度證據(jù)收集"。
當(dāng)前系統(tǒng)仍面臨三大技術(shù)瓶頸。首先是需求解析能力不足,用戶模糊查詢與系統(tǒng)理解之間存在鴻溝,優(yōu)秀系統(tǒng)的澄清提問質(zhì)量與最終報(bào)告得分呈強(qiáng)正相關(guān)。其次是搜索策略滯后,研究場(chǎng)景需要系統(tǒng)自主識(shí)別信息可信度、觀點(diǎn)多樣性,而非簡(jiǎn)單匹配關(guān)鍵詞。最后是評(píng)估維度單一,現(xiàn)有方法側(cè)重最終成果,難以追蹤信息收集、分析推理等中間過程。
研究團(tuán)隊(duì)公開的100個(gè)標(biāo)準(zhǔn)測(cè)試問題集已引發(fā)行業(yè)關(guān)注。這套涵蓋12個(gè)領(lǐng)域的復(fù)雜查詢,配合開源的評(píng)估代碼庫(kù),為技術(shù)迭代提供了基準(zhǔn)平臺(tái)。實(shí)驗(yàn)數(shù)據(jù)顯示,系統(tǒng)在事實(shí)核查環(huán)節(jié)仍有提升空間,平均僅69%的結(jié)論獲得證據(jù)支持,完全支持率更低至55%,這提示未來需加強(qiáng)證據(jù)鏈構(gòu)建能力。
在應(yīng)用場(chǎng)景拓展方面,研究指出智能研究助手正突破傳統(tǒng)文檔生成范疇。領(lǐng)先系統(tǒng)已具備初步的主動(dòng)學(xué)習(xí)能力,可根據(jù)用戶興趣持續(xù)追蹤領(lǐng)域動(dòng)態(tài),部分平臺(tái)開始嘗試為信息標(biāo)注可信度等級(jí)。這種進(jìn)化方向預(yù)示著AI將從被動(dòng)響應(yīng)轉(zhuǎn)向協(xié)同研究,在學(xué)術(shù)探索、商業(yè)決策等場(chǎng)景發(fā)揮更大價(jià)值。
該成果論文編號(hào)arXiv:2510.07861v1已在學(xué)術(shù)數(shù)據(jù)庫(kù)開放獲取,配套的代碼與數(shù)據(jù)集同步上線GitHub平臺(tái)。這種開放研究模式正推動(dòng)行業(yè)形成共識(shí),多家機(jī)構(gòu)已宣布將采用該評(píng)估框架測(cè)試新系統(tǒng),標(biāo)志著DeepResearch領(lǐng)域進(jìn)入標(biāo)準(zhǔn)化發(fā)展新階段。











