OpenAI在2025年12月16日發布了一套新基準FrontierScience,用來衡量AI在物理、化學、生物三門學科里,能否做到接近專家水準的科學推理,而不只是背知識點。
OpenAI在文中把科學工作描述成一套更接近「持續試錯」的流程。
提出假設,設計驗證,推翻再重來,還要把不同領域的線索拼成同一張圖。
模型越強,問題就越尖銳,AI能不能把這種深推理用到真正的科研推進上。
OpenAI提到,過去一年他們的系統在國際數學奧林匹克和國際信息學奧林匹克上達到了金牌級表現,同時更重要的變化發生在實驗室和辦公室里。
研究者開始拿這些模型做跨學科文獻檢索,跨語言讀論文,也拿它們去推復雜證明。
有些原本要耗掉幾天甚至幾周的工作,被壓到幾小時就能跑完一輪。
為什么需要FrontierScience?OpenAI給了一個對比。
2023年11月,GPQA這個由博士專家撰寫、強調「谷歌搜不到」的科學題庫發布時,GPT-4只拿到39%,低于專家基線74%。
兩年后,GPT-5.2在同一基準上拿到92%。
當舊題庫逐漸被刷穿,新的尺子就必須更長,否則你看不出模型還能往哪里發展。
FrontierScience的設計更像是給模型丟進兩種不同的「科學難關」。
一類偏競賽風格,考你在約束條件下把推理做到干凈利落。
物理競賽題示例
另一類更貼近研究現場,要求你在開放問題里把思路走通,哪怕沒有標準答案那么工整。
物理科研問題示例
這套評測總量超過700道文本型題目,其中160道屬于「黃金組」(Gold Set)題目。
競賽賽道有100道題,強調短答案形式,便于核驗對錯。
研究賽道有60個原創研究子任務,由博士階段或更資深的研究者設計,用10分制評分,拿到至少7分才算通過。
題目質量是有充足保障的:
競賽賽道和42位前國際獎牌得主或國家隊教練合作,總計109枚奧賽獎牌;
研究賽道由45位合格科學家與領域專家參與,覆蓋從量子電動力學到合成有機化學,再到進化生物學等細分方向。
OpenAI還承認了一個不那么「中立」的細節。
兩套題在制作流程里會刻意淘汰OpenAI自家內部模型已經能答對的題,因此這套評測對OpenAI自家模型可能更苛刻一些。
與此同時,他們開源了兩套賽道的「黃金組」題目,其余題目保留,用來追蹤數據污染。
OpenAI說,短答案適合機器判定,但研究型任務需要更細顆粒度的量表,于是他們用GPT-5充當模型判卷員,對照短答案逐項打分。
理想狀態是請專家逐題批改,現實是規模不允許,于是規則被設計成盡量客觀且可被模型檢查,并配了驗證流程來校準難度與正確性。
成績單上,OpenAI給出了一輪初測對比。
他們評測了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在競賽題上得分77%,在研究題上得分25%,目前領先;Gemini 3 Pro在競賽題上拿到76%,緊跟其后。
更值得注意的是失敗原因。
OpenAI從答題記錄里總結,前沿模型仍會犯推理、邏輯和計算錯誤,會卡在冷門概念上,也會出現事實性偏差。
另一個很樸素的觀察也被寫進正文:模型想得更久,準確率往往更高。
OpenAI對FrontierScience的邊界也直言不諱。
它把科研切成可控的題目,這讓評測更標準化,但也意味著它更像一張高清截圖,而不是科研的全景紀錄片。
尤其是它不評估模型能否提出真正新穎的假設,也不覆蓋它與多模態數據和現實實驗系統打交道的能力。
接下來,OpenAI計劃迭代題庫、擴展領域,并配套更多真實世界評估,看這些系統究竟讓科學家多做成了什么。







