近日,OpenAI研究人員在社交平臺X上宣稱取得數學研究重大進展,但這一說法迅速引發學界質疑并最終撤回。事件核心圍繞GPT-5在埃爾德什問題上的表現展開,暴露出AI研究領域溝通方式與成果驗證的深層問題。
事件起因于OpenAI管理層成員凱文·韋爾發布的一條推文。他聲稱GPT-5已“解決10個此前未解的埃爾德什問題”,并在另外11個問題上取得突破,形容這些問題“困擾學界數十年”。該表述被其他研究人員轉發后,迅速引發關于AI能否獨立進行原創性數學研究的討論。然而,相關推文在引發爭議后被大量刪除。
數學家托馬斯·布魯姆率先指出問題。他運營的網站erdosproblems.com列出了部分“開放問題”,但強調這些標注僅代表他個人未掌握答案,而非學術界公認未解。GPT-5實際是通過檢索找到了布魯姆未注意到的已有研究成果,而非創造新解法。這一澄清直接否定了OpenAI關于“獨立發現”的表述。
學界對OpenAI的批評集中在研究溝通的嚴謹性上。DeepMind首席執行官德米斯·哈薩比斯公開批評其“過于草率”,meta AI負責人楊立昆則諷刺這是“被炒作反噬”的典型案例。盡管OpenAI研究人員隨后承認錯誤,但事件已加劇外界對其研究規范性的質疑——在涉及數十億美元利益的AI領域,頂尖機構為何會發布未經充分驗證的聲明?
爭議背后,GPT-5的實際價值逐漸清晰。數學家陶哲軒指出,AI在數學領域的核心潛力不在于攻克最難的問題,而在于作為高效研究工具整合分散文獻。例如,當研究問題涉及跨學科術語或文獻分散時,AI可快速追蹤相關論文,節省研究者時間。他強調,目前AI的突破仍屬“零星”,主要作用是加速研究流程而非替代人類專家。
陶哲軒進一步提醒,AI生成的結果需經人類專家嚴格審查。他比喻AI為“數學研究的工業化工具”,可推動領域整體進步,但人類在驗證、分類和安全應用AI成果方面仍不可替代。這一觀點得到部分學者認同,他們認為當前AI更適用于輔助性工作,而非直接產生重大科學突破。
事件也反映出AI研究領域的普遍挑戰。即使了解GPT-5真實能力的研究者,仍可能使用“找到解決方案”等模糊表述,暴露出成果宣傳與實際貢獻之間的認知偏差。如何在追求技術突破的同時保持學術嚴謹性,成為行業需要共同面對的課題。











