谷歌近期在機器學習領域邁出重要一步,推出名為“嵌套學習”的創新范式。該理論突破傳統框架,將模型訓練重構為多層次嵌套優化問題,旨在解決大型語言模型(LLM)的災難性遺忘難題,推動AI向類人持續學習能力演進。相關研究論文《嵌套學習:深度學習架構的錯覺》已發表于NeurIPS 2025。
傳統LLM的認知局限源于其“靜態知識”特性——模型能力被凍結在預訓練階段或即時上下文窗口中。盡管通過持續微調可引入新知識,但這種“填鴨式”更新必然導致原有知識的災難性丟失。過往研究試圖通過架構調整或優化算法改良緩解問題,卻始終未能突破“模型結構”與“學習規則”的二元割裂。
嵌套學習的核心突破在于重構認知維度。研究團隊提出,復雜AI模型本質是不同時間尺度優化的嵌套系統:從瞬時參數調整到長期知識沉淀,各層級優化問題通過差異化更新頻率形成動態平衡。這種視角將傳統分離的模型架構與訓練算法統一為多層次優化問題,每個層級既獨立處理特定信息流,又通過梯度傳遞形成協同。
以Transformer架構為例,嵌套學習揭示其注意力機制本質是低頻更新的聯想記憶模塊,而反向傳播過程則對應高頻誤差校正。通過為各組件分配不同更新頻率,模型可模擬人腦神經可塑性——高頻層捕捉即時信息,低頻層整合長期知識,中頻層協調兩者沖突。這種多時間尺度更新機制,為解決災難性遺忘提供了結構化方案。
基于該理論,研究團隊開發出概念驗證模型Hope。作為Titans架構的進化版,Hope突破原有雙層級更新限制,通過循環嵌套結構實現無限層級學習。其核心創新在于連續譜記憶系統(CMS),該系統將記憶分解為不同更新頻率的模塊光譜:高頻模塊處理即時上下文,中頻模塊整合短期經驗,低頻模塊沉淀長期知識。實驗顯示,這種分層記憶架構使模型在長序列處理中表現出色。
在語言建模基準測試中,Hope的困惑度較標準Transformer降低23%,在常識推理任務中準確率提升17%。特別在“大海撈針”長文本檢索任務中,Hope成功從10萬token序列中精準定位目標信息的概率達92%,遠超Mamba2等對比模型的78%。這些性能提升源于CMS系統對記憶的動態優先級管理——模型能自動判斷信息價值并調整存儲策略。
嵌套學習帶來的范式轉變已催生兩類實用技術。深度優化器通過將動量計算重構為聯想記憶問題,使優化過程更適應噪聲數據;連續譜記憶系統則突破Transformer的固定上下文限制,通過動態調整記憶模塊的更新頻率,實現真正意義上的持續學習。研究團隊強調,這種統一視角為模型設計開辟了新維度,未來可延伸至多模態學習等領域。
盡管Hope等模型已展現潛力,研究者指出當前實現僅觸及嵌套學習理論的表層。真正類人AI需要更精細的層級劃分和生物可解釋的更新機制。隨著研究深入,這種將架構與優化融為一體的新范式,或將重新定義人工智能的能力邊界。










