谷歌的 FACTS (Factual Consistency and Truthfulness Score) 團隊與數據科學平臺 Kaggle 于今日聯合發布了 FACTS 基準測試套件。這是一個旨在衡量生成式人工智能模型在企業任務中事實性 (Factuality) 和真實性的綜合評估框架。
此舉彌補了現有基準測試的重大缺陷——即只關注問題解決能力,而非輸出信息與真實世界數據的客觀一致性,特別是當信息嵌入在圖像或圖表中時。對于法律、金融、醫療等對準確性要求極高的行業而言,FACTS 建立了一個關鍵的標準化衡量體系。
核心發現:AI 距離“完美”仍有距離FACTS 的初步結果向業界發出了明確信號:盡管模型越來越智能,但它們遠非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在內的所有參測模型,在所有問題上的綜合準確率均未能超過 70%。
正如 FACTS 團隊的新聞稿所指出的,這意味著未來仍有巨大的提升空間。對于技術領導者而言,目前的行業信息是:“信任但要核實” 的時代遠未結束。
解構 FACTS:企業級故障模式的四大測試FACTS 測試套件超越了簡單的問答,由四個旨在模擬真實生產環境中的故障模式的子基準測試構成:
參數基準測試 (內部知識): 衡量模型僅依賴訓練數據(內部記憶)回答問題的準確性。
搜索基準測試 (工具使用): 評估模型使用網絡搜索工具檢索和綜合實時信息的能力(RAG 能力)。
多模態基準測試 (視覺): 衡量模型準確解釋圖表、示意圖和圖像,同時避免“幻覺”的能力。
Grounding Benchmark v2(上下文): 評估模型嚴格遵循所提供的源文本(上下文)的能力。
為了防止模型“污染”,谷歌已向公眾發布了3,513個示例,而 Kaggle 則負責維護防止訓練的私有數據集。
排行榜:Gemini3Pro 領跑,但“多模態”成最大短板初始排行榜顯示,Gemini3Pro 以68.8% 的綜合 FACTS 得分領先,但細分數據顯示了模型在不同任務上的真實差距:
模型FACTS評分(平均值)搜索(RAG 能力)多模態(視覺)Gemini3Pro68.8%83.8%46.1%Gemini2.5Pro62.1%63.9%46.9%GPT-561.8%77.7%44.1%Grok453.6%75.3%25.7%Claude4.5Opus51.3%73.2%39.2%對技術棧的啟示:RAG 系統的必要性對構建 RAG(檢索增強生成)系統的開發人員而言,數據驗證了當前的企業架構標準:不要依賴模型的內部存儲器來獲取關鍵信息。
數據顯示,模型的 遠遠優于其能將準確率提升到可接受生產水平的方法。
多模態警告:低于50% 的準確率對于產品經理而言,最令人擔憂的是多模態任務的低分。該項指標普遍偏低,即使是表現最好的 Gemini2.5Pro,準確率也僅為46.9%。由于任務涉及閱讀圖表、解讀示意圖,這表明多模態人工智能尚未準備好進行無監督數據提取。
如果產品路線圖依賴 AI 自動從發票或財務圖表中抓取數據而無需人工審核,那么系統將很可能引入高達三分之一的嚴重錯誤率。
結論:FACTS 將成采購新標桿FACTS 基準測試很可能成為企業級 AI 模型采購領域的新標準。技術負責人應根據用例匹配的具體子基準測試進行評估:
客戶支持機器人: 關注 合規性評分(Gemini2.5Pro 在此項得分74.2%,高于 Gemini3Pro 的69.0%)。
研究助手: 優先考慮 搜索評分。
圖像分析工具: 務必極其謹慎,并假定原始模型在約三分之一的情況下可能會出錯。










