人工智能領域迎來一項突破性進展:一種名為“可微分進化強化學習”(DERL)的創新框架,讓AI系統具備了自主設計獎勵機制的能力。這項研究由跨機構團隊共同完成,其核心突破在于讓AI能夠像人類一樣,通過自我探索發現最優的激勵規則,從而擺脫對人類專家設計的依賴。
傳統AI訓練依賴預設的獎勵函數,但這種方法存在根本性矛盾:過于簡單的獎勵(如僅在任務完成時給予獎勵)會導致學習效率低下,而復雜的獎勵設計又需要大量人力投入且難以適應多樣化場景。DERL框架通過構建雙層學習系統解決了這一難題——上層“元優化器”負責動態調整獎勵規則,下層AI策略則根據當前規則進行學習,兩者形成閉環優化。
研究團隊將獎勵函數設計為模塊化結構,由多個“原子基元”組合而成。這些基元如同樂高積木,分別承擔不同功能:有的驗證任務完成度,有的評估過程合理性,還有的檢查輸出格式。元優化器通過群體相對策略優化算法,同時測試多種獎勵配置的效果,利用梯度信息指導搜索方向,最終找到最優組合方案。
實驗驗證覆蓋機器人控制、科學模擬和數學推理三大領域。在機器人任務測試中,DERL在從未見過的復雜場景下仍保持65%的成功率,較傳統方法提升一倍以上;科學實驗模擬中,其表現同樣領先,尤其在處理變種任務時展現出強大泛化能力;數學推理測試顯示,該方法在競賽級難題上的準確率突破60%,刷新了該領域的基準記錄。
技術實現層面,研究團隊開發了兩種變體:標準版通過多輪迭代逐步優化獎勵函數,人口變體則保留歷史最優模型作為訓練起點。后者在特定測試中達到98.2%的驚人準確率,證明累積學習策略的有效性。進一步分析發現,系統會自動篩選出數學性質穩定的獎勵結構,避免數值爆炸等不穩定現象,這種“自然選擇”機制與人類設計原則形成有趣呼應。
<盡管DERL需要約8倍于傳統方法的計算資源,但其模塊化設計顯著降低了基元定義難度——同一套基元可應用于不同任務,且人口變體通過復用歷史模型大幅削減了訓練成本。概念驗證實驗表明,即使使用僅12個參數的簡化模型,系統仍能發現優于基礎方案的獎勵函數,證明其核心思想的魯棒性。
這項研究為AI訓練開辟了新范式。傳統方法將人類知識編碼為固定規則,而DERL讓系統通過環境交互自主發現學習信號,這種元學習能力被視為通向通用人工智能的關鍵。研究團隊指出,該方法特別適合獎勵設計復雜的領域,如創意生成、長期規劃等,隨著算法效率提升,其應用范圍將持續擴展。
當前挑戰主要集中在三個方面:計算資源需求仍高于傳統方法、基元選擇依賴人類先驗知識、極端復雜任務中的信用分配問題。不過,研究團隊已提出改進方向,包括開發自適應基元庫和引入分層獎勵機制。實驗數據顯示,系統學習到的獎勵函數隨訓練進程逐漸簡化,最終形成穩定可靠的數學結構,這種演化模式為理解智能本質提供了新視角。
學術界對該成果給予高度評價。專家認為,DERL不僅在技術層面實現突破,更重要的是展示了AI系統參與自身訓練過程設計的可能性。這種自參照能力可能催生新一代自主學習系統,它們能在更少人類干預的情況下掌握復雜技能,為醫療、教育、工業等領域帶來變革性應用。










