谷歌DeepMind近日推出了一項名為FACTS的基準測試,旨在評估人工智能系統在事實準確性方面的表現。這項測試通過四個關鍵維度對AI模型進行全面考察:能否依靠自身知識正確回答事實性問題、是否具備高效利用網絡搜索的能力、在長文本中精準引用信息的水平,以及對圖像內容的理解程度。測試結果顯示,谷歌自家的Gemini 3 Pro模型以69%的準確率領先,其他主流AI模型的表現則存在明顯差距。
盡管AI在生成速度和語言流暢性上展現出顯著優勢,但事實可靠性仍是其短板。特別是在需要專業領域知識、復雜邏輯推理或嚴格依賴原始資料的場景中,AI的表現遠未達到人類標準。這一缺陷在高風險行業尤為突出,金融、醫療和法律等領域對信息準確性的要求極高,即便是微小的事實錯誤也可能引發嚴重后果。
以法律行業為例,某律師事務所近期發生的案例凸顯了AI應用的潛在風險。該機構員工使用ChatGPT起草法律文件時,系統生成的文本中包含大量虛構的判例引用。這種嚴重失誤直接導致該員工被解雇,也暴露出當前AI技術在專業場景中的局限性。類似情況并非孤例,如何確保AI生成內容的真實性已成為行業亟待解決的問題。
谷歌方面表示,通過FACTS測試可以精準定位AI模型的錯誤類型和發生場景,這將為技術改進提供重要依據。不過從現有數據看,AI系統仍有約三分之一的概率會輸出錯誤信息。這意味著在關鍵決策領域,人類專家的審核和干預仍不可或缺。如何平衡效率與準確性,將成為AI技術落地應用的核心挑戰。





