中國信息通信研究院(以下簡稱“信通院”)近日宣布,其自主研發(fā)的“方升”人工智能基準測試體系已完成3.0版本升級,標志著我國AI評測能力邁入新階段。此次升級不僅擴展了基礎測試維度,更首次將全模態(tài)理解、長期記憶等十項高級智能能力納入評測范圍,為工業(yè)制造、金融科技、基礎研究等領域提供了更具針對性的評估框架。
據(jù)介紹,3.0版本在原有評測體系基礎上新增了模型底層特征評估模塊,涵蓋參數(shù)規(guī)模、推理效率等核心指標。針對未來AI發(fā)展方向,體系特別設計了高級智能測試單元,重點考察模型在復雜場景下的多模態(tài)交互、自主決策等能力。信通院相關負責人表示,這種分層設計既能反映當前技術水平,又能為前沿研究提供方向指引。
為保障評測結果的權威性,信通院同步推進了三大基礎設施建設項目。首先是測試數(shù)據(jù)資源擴容,計劃新增300萬條涵蓋多語言、多任務的標準化數(shù)據(jù),以滿足不同場景下的評測需求。其次是測試方法創(chuàng)新,重點攻關高質量數(shù)據(jù)合成、動態(tài)質量評估等關鍵技術。第三是構建智能評測基座,通過引入多智能體交互仿真環(huán)境,實現(xiàn)對復雜系統(tǒng)協(xié)同能力的精準評估。
在最新完成的季度評測中,141個大模型和7個智能體接受了全面檢驗。測試覆蓋基礎認知、邏輯推理、代碼生成、多模態(tài)理解四大維度。結果顯示,OpenAI的GPT-5在綜合性能上保持領先,但國內(nèi)模型表現(xiàn)可圈可點——阿里巴巴的Qwen3-Max-Preview和月之暗面的Kimi K2在特定場景下已接近國際先進水平。值得注意的是,多模態(tài)模型在圖像識別領域取得突破,但在需要多步驟推理的任務中仍存在提升空間。
代碼應用能力專項測試暴露出行業(yè)共性問題。雖然參評模型在簡單函數(shù)實現(xiàn)上表現(xiàn)優(yōu)異,但在真實項目開發(fā)中的架構設計、錯誤處理等方面明顯不足。專家指出,這反映出當前AI工具從實驗室到產(chǎn)業(yè)應用的轉化過程中,仍需突破工程化能力瓶頸。
隨著評測體系持續(xù)完善,信通院已建立雙月評測機制,定期發(fā)布技術分析報告。相關負責人透露,下一步將重點加強評測標準國際化建設,通過與全球研究機構合作,推動中國AI評測體系獲得更廣泛的國際認可,為技術創(chuàng)新和產(chǎn)業(yè)升級提供有力支撐。





