人工智能領域長期追求的目標之一,是構建能夠在復雜動態環境中自主決策、實現目標的智能體。強化學習作為實現這一目標的核心技術,雖歷經數十年研究,但讓智能體自主設計高效強化學習算法的難題始終未解。近日,Google DeepMind團隊提出突破性方案,通過多代智能體在不同環境中的交互經驗,實現強化學習規則的自主發現。
研究團隊開發的DiscoRL系統在多項基準測試中展現驚人實力。在經典的Atari游戲測試中,該系統訓練出的Disco57規則以13.86的四分位數平均值(IQM)超越MuZero、Dreamer等主流算法,且在運算效率上顯著優于同類技術。更值得關注的是,該規則在未接觸過的ProcGen二維游戲、Crafter生存挑戰及NetHack迷宮探索等測試中,均展現出超越人工設計算法的泛化能力。
這項突破的核心在于雙重優化機制。智能體優化層面,系統采用Kullback-Leibler散度確保訓練穩定性,通過元網絡生成的策略、觀測預測和動作預測目標,引導智能體持續改進決策模型。元優化層面,多個智能體在不同環境中并行學習,元網絡根據整體表現計算元梯度,動態調整學習規則。這種設計使算法能在有限訓練步數內快速收斂,同時保持對未知環境的適應能力。
實驗數據顯示,算法性能與環境復雜度呈正相關。基于103個環境訓練的Disco103規則,不僅在Atari測試中保持競爭力,更在Crafter生存挑戰中達到人類水平表現,在推箱子任務中接近MuZero的頂尖性能。研究團隊特別指出,隨著訓練環境數量從57個增至103個,算法在全新測試場景中的表現提升達37%,證明數據多樣性對算法泛化能力的關鍵作用。
在效率維度,DiscoRL展現出顯著優勢。最優版本僅需在每個Atari游戲進行約6億步訓練(相當于57個游戲3輪實驗),即可發現高性能規則。相比之下,傳統人工設計方法需要數十倍實驗次數和人力投入。這種效率提升源于算法對計算資源的智能利用——隨著參與訓練的環境數量增加,系統在未知測試場景中的表現呈指數級增長。
技術細節方面,智能體結構包含策略輸出、多模態預測和價值評估模塊,元網絡則通過反向傳播與優勢行動者-評論家算法實現參數優化。特別設計的輔助損失函數,有效平衡了探索與利用的矛盾,使學習過程既穩定又高效。在NetHack挑戰賽中,未使用任何領域知識的Disco57仍取得第三名,驗證了算法的普適性。
這項發表于《自然》雜志的研究引發學術界廣泛關注。專家指出,該成果標志著強化學習從人工設計向自動發現的范式轉變,未來高級AI系統的核心算法可能完全由機器自主生成。不過,技術突破帶來的倫理與社會影響同樣值得深思——當算法設計權從人類轉移至機器,現有監管框架和技術治理體系面臨全新挑戰。







