近日,谷歌的 FACTS 團隊與數據科學單位 Kaggle 聯合發布了 FACTS 基準套件,旨在填補當前 AI 模型評估中對事實準確性缺乏標準化的空白。該基準套件提供了一種全面的評估框架,特別適用于法律、金融和醫療等行業,其中準確性至關重要。
圖源備注:圖片由AI生成,圖片授權服務商Midjourney
FACTS 基準將 “事實性” 定義為兩個獨特的操作場景:一是 “上下文事實性”,即依據提供的數據生成準確響應;二是 “世界知識事實性”,即從記憶或網絡中檢索信息。初步結果顯示,包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在內的所有模型,在這一基準測試中均未能突破70% 的準確率。
FACTS 基準不僅限于簡單的問答題,而是由四個不同的測試組成,模擬開發人員在生產中遇到的真實失敗模式。這些測試包括:參數基準(內部知識)、搜索基準(工具使用)、多模態基準(視覺)和上下文基準。谷歌已向公眾發布了3513個示例,而 Kaggle 則保留了一部分私有數據,以防開發人員在測試數據上進行訓練。
根據初步測試結果,Gemini3Pro 以68.8% 的綜合 FACTS 得分領先,其次是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特別是在 “搜索” 基準測試中,Gemini3Pro 的得分高達83.8%,而在 “參數” 測試中僅為76.4%。這表明,企業在構建知識檢索增強生成(RAG)系統時,應將模型與搜索工具或向量數據庫結合使用,以提高準確性。
然而,值得關注的是,在多模態任務中的表現普遍較低,即使是領先的 Gemini2.5Pro,在該類別中也僅得到了46.9% 的準確率。這一數據表明,當前的多模態 AI 在無人監督的數據提取上尚未成熟,企業在產品開發中需謹慎對待。
劃重點:










