西湖大學(xué)文本智能實驗室(WestlakeNLP)研發(fā)的AI科學(xué)家DeepScientist,近日以自主探索能力刷新了人們對人工智能科研的認(rèn)知。該系統(tǒng)在兩周內(nèi)完成了人類科學(xué)家需三年才能達成的科研突破,在三個前沿AI任務(wù)中成功超越了人類最先進方法(SOTA),其成果通過論文正式向全球?qū)W術(shù)界公布。
傳統(tǒng)AI科研工具多聚焦于單一環(huán)節(jié),如PaperBench用于論文復(fù)現(xiàn),AlphaTensor專注代碼優(yōu)化,CycleResearcher輔助論文撰寫。這些系統(tǒng)雖能提升效率,卻始終在既定科學(xué)范式內(nèi)運作,缺乏自主質(zhì)疑與突破框架的能力。DeepScientist的出現(xiàn)打破了這一局限,其核心創(chuàng)新在于構(gòu)建了閉環(huán)迭代的研究流程,能夠自主分析現(xiàn)有SOTA方法的短板,并通過故障歸因機制提出兼具新穎性與科學(xué)價值的研究方向。
該系統(tǒng)的運作模式將科學(xué)發(fā)現(xiàn)轉(zhuǎn)化為優(yōu)化問題。在包含所有可能研究方法的巨大空間中,DeepScientist通過分層三階段探索循環(huán)高效篩選最優(yōu)解。第一階段"戰(zhàn)略假設(shè)"階段,系統(tǒng)基于開放知識庫與發(fā)現(xiàn)記憶庫生成大量假設(shè),由扮演審稿人的大語言模型(LLM)代理從效用、質(zhì)量、探索價值三維度評分。第二階段"實施驗證"階段,采用"上置信界"算法平衡利用高潛力想法與探索不確定性想法,編碼代理在沙盒環(huán)境中完成實驗。第三階段"分析報告"階段,僅對超越基線的發(fā)現(xiàn)進行深度驗證,最終由合成代理生成可復(fù)現(xiàn)的研究論文。
在代理失敗歸因任務(wù)中,DeepScientist識別出人類SOTA方法缺乏反事實推理能力的缺陷,提出包含溯因推理、糾正行動定義與結(jié)果預(yù)測三步驟的A2P方法,實現(xiàn)了從模式識別到因果推理的升級。在LLM推理加速任務(wù)里,系統(tǒng)通過識別穩(wěn)定后綴模式開發(fā)ACRA方法,將吞吐量從190.25 tokens/s提升至193.90 tokens/s。最引人注目的是AI文本檢測任務(wù),系統(tǒng)在兩周內(nèi)連續(xù)突破,最終PA-Detect方法在RAID基準(zhǔn)數(shù)據(jù)集上將AUROC指標(biāo)提升7.9%,同時推理速度翻倍。
實驗數(shù)據(jù)顯示,DeepScientist在三個任務(wù)中生成超5000個研究想法,經(jīng)篩選后1100個進入驗證階段,最終21個實現(xiàn)科學(xué)突破,整體成功率1.9%。失敗案例中60%源于代碼實現(xiàn)錯誤,40%為想法本身無效。這種"大漏斗"式篩選機制確保了計算資源的高效利用,在前沿科學(xué)領(lǐng)域,每次驗證需消耗相當(dāng)于完整研究周期的資源,暴力搜索顯然不可行。
該系統(tǒng)撰寫的5篇論文經(jīng)雙重評審驗證質(zhì)量。AI審稿人DeepReviewer在盲審中將DeepScientist論文接受率評為60%,顯著高于其他AI科學(xué)家系統(tǒng)。人類專家委員會(含兩位ICLR審稿人與一位領(lǐng)域主席)則一致認(rèn)可其創(chuàng)新性,論文平均得分5.00,與ICLR 2025提交論文平均分(5.08)接近,兩篇獲5.67高分。
這項突破也引發(fā)倫理討論。研究團隊通過"紅隊演練"測試系統(tǒng)安全性,當(dāng)要求生成計算機病毒時,GPT-5、Gemini-2.5-Pro等基礎(chǔ)模型均因安全協(xié)議自動終止研究。為防范學(xué)術(shù)生態(tài)風(fēng)險,實驗室決定開源核心發(fā)現(xiàn)組件以促進社區(qū)發(fā)展,但保留分析與報告模塊,防止自動生成低質(zhì)量論文泛濫。這種平衡策略既保護了學(xué)術(shù)嚴(yán)謹(jǐn)性,又為未來科研模式轉(zhuǎn)型提供了可能。











