西湖大學自然語言處理實驗室近日宣布,其研發的AI科學家系統DeepScientist在科研領域取得突破性進展。該系統首次實現了完全自主的科研探索能力,能夠在無人工干預的情況下,持續提出并驗證具有科學價值的假設,展現出超越人類專家的研究效率。
在AI文本檢測任務中,DeepScientist僅用兩周時間就完成了相當于人類科學家三年的研究進展。系統自主生成了2472個獨特研究想法,其中600個假設經過代碼實現和實驗驗證,最終在RAID數據集上實現了7.9%的AUROC提升,同時將推理延遲降低190%,顯著超越了當前最先進的人類研究成果。
與傳統AI科研系統不同,DeepScientist不再局限于執行預設任務,而是能夠主動識別研究領域的根本性局限,提出創新性的科學構想。系統具備完整的科研能力鏈條,包括自動編寫代碼、執行實驗、分析結果、撰寫論文以及開源可重現代碼,實現了從問題發現到成果輸出的全流程自動化。
該系統的核心機制基于分層貝葉斯優化框架,將復雜的科學發現過程轉化為目標驅動的決策問題。通過多智能體協同策略,DeepScientist構建了三層級評估循環,根據不同保真度的實驗結果動態分配計算資源。這種設計使系統能夠在有限的預算內,精準識別最具潛力的研究方向。
在智能體失敗歸因任務中,DeepScientist展現了強大的結構化推理能力。面對現有方法難以解決的因果推理難題,系統自主開發了A2P(Abduction-Action-Prediction)方法,將失敗歸因從模式識別提升到因果推理層面。該方法在Who&When基準測試中取得47.46分,性能較人類專家基線提升183.7%。
研究數據顯示,DeepScientist的實驗成功率遠超自動化科學發現領域的平均水平。系統通過記憶驅動的迭代機制,將成功與失敗的經驗都轉化為后續決策的依據。這種持續學習模式使系統能夠在數月內自主運行,不斷優化研究策略,展現出穩定的科學發現能力。
計算資源擴展實驗揭示了有趣的"科學發現縮放定律"。當GPU資源從1枚增加到16枚時,系統每周產出的前沿科學發現數量從0項躍升至11項,呈現出近乎線性的增長趨勢。這表明科學突破可以通過系統化增加計算資源來實現規模化生產,為科研范式轉型提供了新思路。
DeepScientist的研發團隊強調,該系統并非要取代人類科學家,而是開創人機協同的新模式。人類研究者將專注于提出具有前瞻性的科學問題,AI則作為高效的探索引擎,在人類智慧的指引下加速科學發現進程。這種協作模式有望解決基礎物理、新藥研發等領域的重大挑戰。
為推動這一范式的發展,研究團隊決定開源DeepScientist的核心系統和全部實驗日志。實驗室現已開放免費服務申請,歡迎全球科研人員共同參與建設高效的科學發現體系。該系統特別適用于需要大規模假設驗證的前沿研究領域,能夠顯著提升研究效率。
西湖大學自然語言處理實驗室由張岳教授領導,專注于語言模型推理、泛化和通用人工智能研究。實驗室近期系統撰寫了AI科學家方向的綜述論文,為領域發展提供理論參考。相關成果已通過開源倉庫和在線平臺公開,供全球科研社區使用。











