人工智能在科研領域的表現再次成為焦點。OpenAI近日推出全新基準測試FrontierScience,通過物理、化學、生物三大領域的博士級難題,檢驗AI系統能否突破知識記憶層面,實現真正的科學推理能力。這項測試揭示了一個關鍵結論:即便在標準化考試中表現優異,當前AI距離成為獨立科研工作者仍有顯著差距。
該基準測試包含700余道文本型題目,分為競賽賽道與研究賽道兩大模塊。競賽賽道聚焦100道短答案題目,要求在嚴格約束條件下完成精準推理;研究賽道則設置60個開放式子任務,涵蓋量子電動力學、合成有機化學等前沿方向,需在無標準答案的情況下構建完整邏輯鏈條。測試特別設置"黃金組"160道題目作為核心評估樣本,其中研究賽道題目由45位領域專家設計,采用10分制評分標準,7分以上視為通過。
測試結果顯示,GPT-5.2在競賽賽道取得77%的正確率,研究賽道得分25%,暫居領先地位;Gemini 3 Pro以76%的競賽成績緊隨其后。但深入分析錯誤類型發現,前沿模型普遍存在推理斷層、概念混淆和計算偏差等問題。例如在量子物理題目中,某模型因混淆"自旋軌道耦合"與"角動量守恒"導致全盤錯誤;有機化學合成路徑規劃中,另一模型因忽視立體選擇性反應條件而設計出不可行方案。
測試設計團隊刻意排除現有模型能夠解答的題目,使得評估標準更為嚴苛。為確保評分客觀性,研究賽道采用GPT-5作為自動評分系統,通過對照專家制定的評分細則進行逐項判定。盡管這種設計可能對OpenAI自家模型形成額外挑戰,但開發團隊強調這有助于更真實反映模型在未知領域的適應能力。測試數據表明,模型思考時間與準確率呈正相關,在給予充分推理時間的情況下,部分題目的正確率可提升15-20個百分點。
這項基準測試也暴露出當前評估體系的局限性。OpenAI坦言,現有測試框架將復雜科研過程簡化為可控題目,如同"用顯微鏡觀察森林",難以衡量模型提出創新假設的能力,也無法評估其處理多模態數據或指導實驗操作的實際價值。測試團隊正在開發擴展題庫,計劃納入更多跨學科場景和真實實驗數據,同時建立長期追蹤機制,觀察AI系統如何切實輔助科研人員提升工作效率。











