在科技領域的前沿探索中,OpenAI 的兩位核心研究主管——首席科學家 Jakub Pachocki 與首席研究官 Mark Chen——近期成為行業焦點。他們不僅在《麻省理工科技評論》的獨家專訪中分享了攻克推理模型知識串聯難題的經驗,更在 a16z 播客欄目中與普通合伙人 Aden Mita、Sarah Wang 展開深度對話,首次系統性披露了 OpenAI 在后 GPT-5 時代的研究方向與組織理念,提出構建“自動化研究者”(Automated Researcher)的遠期目標。
GPT-5 的設計理念成為對話的起點。Mark Chen 坦言,此前 OpenAI 的模型路線存在內在矛盾:GPT 系列(2, 3, 4)以“即時響應”為核心,能快速給出答案;而推理模型 o 系列則側重深度思考,追求答案質量。這種分離導致用戶選擇困惑。為此,GPT-5 的核心任務是解決這一矛盾,將推理能力無縫融入用戶交互中。“我們希望用戶無需糾結該用哪種模式,而是默認獲得推理能力和智能體行為。”Mark Chen 強調,未來研究將更聚焦于智能體(agents)的發展,GPT-5 是這一方向的重要一步。
隨著模型能力的提升,評估基準的瓶頸問題逐漸顯現。OpenAI 研究員 Yaka Pohotsky 指出,沿用多年的評估指標已接近飽和,例如從 96% 提升到 98% 的邊際效益有限。他坦言,傳統的“預訓練-泛化評估”模式難以適應強化學習等新方法帶來的變化——模型雖能在特定領域展現專業能力,但未必等同于全面泛化能力。“我們正處于優秀評估方法的‘赤字’狀態。”Yaka Pohotsky 認為,未來的評估重心應轉向模型發現新事物的實際能力,例如在數學和編程競賽中的表現,以及在有意義事物上的真實發現和推動。
在技術路徑上,強化學習(RL)和編程被視為實現“自動化研究者”的關鍵驅動力。Yaka Pohotsky 解釋,RL 與大規模預訓練模型的成功結合,為 AI 研究提供了近乎無限的試驗場。“預訓練賦予模型對人類語言的理解,而 RL 則能在此環境中執行各種目標。”他強調,這種結合解決了過去環境構建的難題。與此同時,編程領域的突破也至關重要。Mark Chen 透露,新版 GPT-5 Codex 的目標是讓推理模型的“原始智能”轉化為真實世界編程中的實用工具,關注編碼的“軟性”層面,如代碼風格、模型的積極性與懶惰程度等。
技術變革正在重塑編程的定義。Yaka Pohotsky 回憶,作為前編程競賽選手,他曾抗拒使用工具,但 GPT-5 的最新能力讓他改變看法——現在它能在 15 分鐘內完成涉及 30 個文件的代碼重構。Mark Chen 補充,對于年輕一代程序員而言,“氛圍編程”(vibe coding)已成為默認方式,不借助 AI 編碼反而顯得奇怪。這種趨勢可能很快延伸至研究領域,演變為“氛圍研究”(vibe researching)。
在探討優秀研究員的特質時,Yaka Pohotsky 認為“堅持”是核心。他指出,研究的本質是探索未知,需要研究者提出清晰假設,并在失敗中學習。Mark Chen 補充,經驗同樣重要,通過閱讀優秀論文、與同事交流,研究員能學會選擇合適的研究課題——既不太難,也不太簡單。Yaka Pohotsky 強調,選擇真正關心且認為重要的問題至關重要,許多他敬佩的研究者都勇于挑戰“硬骨頭”問題,并不斷追問障礙所在。
在組織與文化建設方面,Mark Chen 認為 OpenAI 的優勢在于其“基礎研究”的使命感。這種使命激勵團隊成員在技術前沿創新,而非模仿。他透露,OpenAI 致力于吸引頂尖人才,并已建立深厚的人才儲備。Yaka Pohotsky 表示,他們尋找的是曾在任何領域解決過難題的人,背景可能是物理學、計算機科學理論甚至金融。強大的技術基礎、挑戰宏大問題的雄心和毅力,是他們最為看重的品質。
為了保護基礎研究,OpenAI 努力確保研究人員不受產品方向需求的干擾,給予他們充足的時間和空間探索未來一到兩年的重大問題。盡管公司內部存在多個研究方向,如擴散模型和代碼推理,但長遠來看,這些探索最終會匯集到“自動化研究者”這一核心目標上。Yaka Pohotsky 坦言,雖然長期目標清晰,但具體技術路徑仍需探索和學習。
當被問及資源投向時,兩位研究主管毫不猶豫地選擇了“計算”(compute)。Jakub Pachocki 不認可“AI 領域將從算力約束轉向數據約束”的觀點,他認為從長期觀察來看,“我們能做多少事就是計算力”。Mark Chen 也表示:“任何說這話的人都應該來我的崗位上待一個周末。沒有人會說‘我有我需要的所有計算力’。”在他們看來,計算力的約束仍然是 AI 前沿研究中一個長期存在的難題。











