谷歌FACTS團隊與數(shù)據(jù)科學平臺Kagle近日聯(lián)合推出一套名為FACTS的AI模型評估基準工具,旨在解決當前行業(yè)對生成式人工智能事實準確性缺乏統(tǒng)一衡量標準的問題。該框架特別針對法律、金融、醫(yī)療等對信息可靠性要求嚴苛的領域設計,通過多維度測試為模型性能提供量化參考。
評估體系將"事實性"拆解為兩大核心維度:其一為上下文事實性,要求模型嚴格基于給定信息生成回答;其二為世界知識事實性,考察模型調(diào)用預存知識或網(wǎng)絡檢索的能力。初步測試顯示,包括Gemini3Pro、GPT-5及Claude4.5Opus在內(nèi)的主流模型,綜合準確率均未突破70%門檻,暴露出當前技術存在的系統(tǒng)性缺陷。
不同于傳統(tǒng)問答測試,F(xiàn)ACTS基準包含四項創(chuàng)新測試模塊:參數(shù)基準檢驗模型內(nèi)部知識儲備,搜索基準評估工具調(diào)用能力,多模態(tài)基準測試視覺信息處理,上下文基準驗證邏輯連貫性。為防止數(shù)據(jù)污染,測試集采用3513個公開樣本與保密數(shù)據(jù)組合的形式,其中Kagle保留的私有數(shù)據(jù)占比達30%。
在具體測試中,Gemini3Pro以68.8%的綜合得分領跑群雄,其搜索模塊表現(xiàn)尤為亮眼,獲得83.8%的超高評分。但該模型在參數(shù)測試中僅取得76.4%的成績,暴露出知識儲備與檢索能力的失衡。OpenAI的GPT-5以61.8%位列第三,其整體表現(xiàn)與第二名Gemini2.5Pro(62.1%)差距微小。
多模態(tài)測試成為所有模型的共同短板,即便是表現(xiàn)最佳的Gemini2.5Pro,在該模塊也僅獲得46.9%的準確率。測試數(shù)據(jù)顯示,當前AI系統(tǒng)在處理無監(jiān)督視覺信息提取時,仍存在顯著的精度缺陷,這提示企業(yè)在部署相關應用時需建立人工復核機制。
核心發(fā)現(xiàn)顯示:主流模型事實核查能力普遍不足70%;搜索增強型架構可顯著提升回答準確性;多模態(tài)處理技術尚未達到商用標準。這些結論為AI研發(fā)者提供了明確優(yōu)化方向,特別是知識檢索增強生成(RAG)系統(tǒng)的開發(fā),需重點強化模型與向量數(shù)據(jù)庫的協(xié)同能力。











