滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

谷歌發布 FACTS 基準測試:揭示 AI “事實墻” 所有頂尖模型準確率均低于70%

時間：2025-12-11 15:28:51 來源：CHINAZ編輯：快訊 IP：北京 發表評論無障礙通道

谷歌的 FACTS （Factual Consistency and Truthfulness Score）團隊與數據科學平臺 Kaggle 于今日聯合發布了 FACTS 基準測試套件。這是一個旨在衡量生成式人工智能模型在企業任務中事實性（Factuality）和真實性的綜合評估框架。

此舉彌補了現有基準測試的重大缺陷——即只關注問題解決能力，而非輸出信息與真實世界數據的客觀一致性，特別是當信息嵌入在圖像或圖表中時。對于法律、金融、醫療等對準確性要求極高的行業而言，FACTS 建立了一個關鍵的標準化衡量體系。

核心發現:AI 距離“完美”仍有距離

FACTS 的初步結果向業界發出了明確信號:盡管模型越來越智能，但它們遠非完美。包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在內的所有參測模型，在所有問題上的綜合準確率均未能超過 70%。

正如 FACTS 團隊的新聞稿所指出的，這意味著未來仍有巨大的提升空間。對于技術領導者而言，目前的行業信息是:“信任但要核實” 的時代遠未結束。

解構 FACTS:企業級故障模式的四大測試

FACTS 測試套件超越了簡單的問答，由四個旨在模擬真實生產環境中的故障模式的子基準測試構成:

參數基準測試（內部知識）: 衡量模型僅依賴訓練數據（內部記憶）回答問題的準確性。

搜索基準測試（工具使用）: 評估模型使用網絡搜索工具檢索和綜合實時信息的能力（RAG 能力）。

多模態基準測試（視覺）: 衡量模型準確解釋圖表、示意圖和圖像，同時避免“幻覺”的能力。

Grounding Benchmark v2（上下文）: 評估模型嚴格遵循所提供的源文本（上下文）的能力。

為了防止模型“污染”，谷歌已向公眾發布了3，513個示例，而 Kaggle 則負責維護防止訓練的私有數據集。

排行榜:Gemini3Pro 領跑，但“多模態”成最大短板

初始排行榜顯示，Gemini3Pro 以68.8% 的綜合 FACTS 得分領先，但細分數據顯示了模型在不同任務上的真實差距:

模型FACTS評分（平均值）搜索（RAG 能力）多模態（視覺）Gemini3Pro68.8%83.8%46.1%Gemini2.5Pro62.1%63.9%46.9%GPT-561.8%77.7%44.1%Grok453.6%75.3%25.7%Claude4.5Opus51.3%73.2%39.2%對技術棧的啟示:RAG 系統的必要性

對構建 RAG（檢索增強生成）系統的開發人員而言，數據驗證了當前的企業架構標準:不要依賴模型的內部存儲器來獲取關鍵信息。

數據顯示，模型的遠遠優于其能將準確率提升到可接受生產水平的方法。

多模態警告:低于50% 的準確率

對于產品經理而言，最令人擔憂的是多模態任務的低分。該項指標普遍偏低，即使是表現最好的 Gemini2.5Pro，準確率也僅為46.9%。由于任務涉及閱讀圖表、解讀示意圖，這表明多模態人工智能尚未準備好進行無監督數據提取。

如果產品路線圖依賴 AI 自動從發票或財務圖表中抓取數據而無需人工審核，那么系統將很可能引入高達三分之一的嚴重錯誤率。

結論:FACTS 將成采購新標桿

FACTS 基準測試很可能成為企業級 AI 模型采購領域的新標準。技術負責人應根據用例匹配的具體子基準測試進行評估:

客戶支持機器人: 關注合規性評分（Gemini2.5Pro 在此項得分74.2%，高于 Gemini3Pro 的69.0%）。

研究助手: 優先考慮搜索評分。

圖像分析工具: 務必極其謹慎，并假定原始模型在約三分之一的情況下可能會出錯。

12-11

AI 智能眼鏡市場爆燃!夸克 S1“一鏡難求”，現貨溢價炒至5000元

12-11

谷歌發布 FACTS 基準:AI 模型準確性面臨70% 天花板挑戰

12-11

AI技術服務商黑馬殺出螞蟻數科今年已上架百余智能體聯合解決方案

12-11

?GPT-5.2 或將問世，備受矚目對抗谷歌 Gemini 3

12-11

網易云音樂重磅推出AI音樂創作大賽百萬獎金助力優質AI歌曲創作

12-11

《瘋狂動物城2》引爆IP經濟：“狐兔CP”如何撬動消費新熱潮？

12-11

大疆Pocket 4爆料搶先看：多攝長續航，明年登場或再掀搶購熱潮？

12-11

麥肯齊·斯科特今年豪捐72億美元減持亞馬遜股份助力全球慈善事業

12-11

軌道數據中心新突破：Starcloud衛星實現太空大模型訓練與商業應用

12-11

彭博測算：SpaceX若以1.5萬億美元估值上市馬斯克財富或大幅躍升逼近萬億

12-11

谷歌推出托管MCP服務器：簡化AI智能體集成，拓展服務應用新場景

12-11

馬斯克貝佐斯競逐太空新賽道：SpaceX與藍色起源競相布局軌道數據中心

12-11

金融業AI應用初期成本攀升：先增員后增效，長期潛力待釋放

12-11

小米武漢智能家電工廠實拍：生態化布局搭配“空中運輸” 刷新工廠印象

12-11

點擊查看更多 +

全站最新

2025款星光560汽油版首發搶訂！10萬級起售，大空間5或7座靈活布局實用性強

新款奔馳S級諜照流出：2026年上市混動為主力攜手EQS共拓豪華市場

嵐圖追光L破曉上市，27.99萬起售，重塑中國豪華轎車新標桿

邁凱倫首款SUV渲染圖亮相轎跑溜背造型 2028年攜混動系統登場

27.99萬元起售！嵐圖追光L上市，開啟民族品牌高端化新征程

五菱星光560硬派來襲！三動力可選，12月11日東盟車展全球首發搶訂

熱門內容

本欄最新

邁凱倫首款SUV渲染圖亮相轎跑溜背造型 2028年攜混動系統登場

AI“入口”爭奪戰正酣終端跨界融合重塑智能生活新格局

2025亞馬遜全球線上商采：數字化協同引領，熱門選品與區域策略全解析

2025中國快消品市場洞察：下沉引擎、渠道變革與品牌破局新機遇

英偉達開源VLA來襲，中國智駕公司無需慌但要加速提升真實表現

英偉達開源VLA來襲，中國智駕公司：無需慌亂，加速前行正當時

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

谷歌發布 FACTS 基準測試:揭示 AI “事實墻” 所有頂尖模型準確率均低于70%