上海財經大學研究團隊近日發布了一項突破性成果——全球首個專門評估人工智能統計推理能力的評測體系Stateval,相關論文已上傳至arXiv預印本平臺。該體系通過近兩萬道精心設計的題目,構建起覆蓋從本科基礎到博士研究級別的完整評測框架,為人工智能在數據科學領域的應用能力提供了全新評估維度。
當前主流評測系統存在顯著偏科現象。以MMLU為代表的綜合性評測中,統計相關題目占比不足3%,且多為簡單概率計算;MATH評測系統雖涉及數學推理,但對統計推斷的考察僅限于基礎層面。這種評估方式如同用語文數學成績評判學生綜合能力,完全忽視了統計學在預測分析、因果推斷等領域的核心作用。研究團隊通過系統分析發現,現有模型在真實統計場景中的表現遠未達到實用水平。
Stateval評測體系采用雙層結構設計:基礎知識庫包含13,817道題目,涵蓋45本經典教材、上千道考研真題及名校公開課習題;研究級題庫則從2020-2025年18種頂級期刊的2719篇論文中提取2374道證明題。問題分類體系沿難度和學科兩個維度展開,既區分本科與研究生層次,又細分為概率論、統計學、機器學習三大領域及其30余個子方向。對于研究級問題,更進一步按理論性質分為漸近分析、分布特性、最優性等12個專業類別。
為解決大規模高質量題庫建設難題,研究團隊開發了多智能體協作系統。該系統由四個核心模塊構成:文檔轉換模塊通過多模態大模型處理PDF、掃描件等異構文檔;內容提取模塊運用動態規則識別定理、引理等關鍵信息;問題生成模塊將理論內容轉化為標準化問答;質量控制模塊進行最終校驗。特別引入的人工反饋機制,通過專家評估持續優化生成算法,確保問題學術嚴謹性。這種人機協同模式使題庫建設效率提升數十倍,同時保持了專業水準。
評測采用分層評分機制:選擇題實行嚴格二元評分,開放題則通過四步評估流程,從推理準確性、步驟完整性、結果正確性三個維度綜合打分,權重分配為4:3:3。研究級證明題采用雙軌制標準:對表達式類答案重點考察主導項階次一致性,對常數類答案要求絕對精確。為確保結果可靠性,每道題均進行三輪獨立評估并取最低分。這種設計既保證了評分客觀性,又能反映模型的真實推理能力。
基準測試顯示,當前頂尖模型在統計推理方面存在明顯短板。在精簡版評測集(3300題)中,GPT-5在基礎知識部分取得82.85分,但研究生層次題目正確率下降12個百分點。研究級問題測試結果更令人警醒:GPT-5-mini準確率僅57.62%,開源模型最高得分51.10%。細分領域分析表明,模型在機器學習相關問題上表現優于傳統統計理論,在最優性推導、泛化誤差等復雜推理任務中準確率不足50%。這種能力分布不均現象,反映出訓練數據偏向熱門應用領域而忽視基礎理論的問題。
該成果對人工智能發展具有多重啟示。在應用層面,揭示了當前模型在科研分析中的可靠性邊界,提示需謹慎對待AI生成的統計結論。技術發展方面,為模型優化指明了方向——需加強基礎理論訓練,提升復雜推理能力。教育領域,Stateval的分類框架和題庫資源可為統計學教學提供標準化參考。研究團隊已公開完整數據集和評測代碼,這種開放態度將促進學術社區共同完善評估標準,推動人工智能在科學計算領域的可信應用。











