谷歌研究院在持續學習領域取得重要突破,其提出的“嵌套學習”架構被NeurIPS 2025會議收錄。這項研究通過重新定義機器學習模型的構建方式,為解決大模型“災難性遺忘”問題提供了全新思路。實驗表明,基于該架構的Hope模型在語言建模和長序列記憶任務中表現超越Transformer架構,標志著大模型向自我進化能力邁出關鍵一步。
“災難性遺忘”是神經網絡領域的頑疾,表現為模型在學習新任務時迅速喪失原有能力。典型案例包括:掌握減法運算后遺忘加法規則、切換游戲場景時性能驟降、微調過程中出現風格偏移等。這種現象源于傳統模型將知識固定在靜態參數中,導致新信息輸入時必然覆蓋舊知識,與人類持續積累知識的能力形成鮮明對比。
研究團隊突破性地提出將模型解構為多層嵌套的優化系統。不同于傳統將網絡結構與訓練算法分離的做法,嵌套學習認為二者本質是同一優化過程的不同層級。這種視角下,每個子模塊都擁有獨立的信息流和更新頻率,形成類似人腦的多時間尺度學習機制。例如,淺層模塊快速適應即時輸入,深層模塊則緩慢整合長期知識。
實驗中構建的Hope模型驗證了理論可行性。該架構在Titans長期記憶機制基礎上,通過遞歸自指結構實現無限層級的學習嵌套。配合連續記憶系統(CMS),模型能動態調整各組件的更新頻率:高頻模塊處理當前上下文,低頻模塊鞏固歷史知識。這種設計使Hope在語言建模任務中取得更低困惑度,在長序列處理中超越TTT和Mamba2等先進模型。
技術細節顯示,嵌套學習將優化器重構為聯想記憶模塊。傳統動量優化器通過點積相似度計算樣本關系,而新框架采用標準損失函數作為優化目標,顯著提升對噪聲數據的魯棒性。在記憶系統方面,連續記憶譜系突破Transformer的短期-長期二分法,通過多頻率更新實現更精細的知識管理。這種設計使模型既能快速響應新信息,又能穩定保持歷史知識。
研究團隊通過多維度實驗證明技術優勢。在持續學習場景中,Hope模型在知識整合任務上準確率提升12%;長序列處理方面,其有效上下文窗口擴展至傳統模型的3倍。這些成果表明,當架構設計與優化算法形成統一優化系統時,模型將獲得更強的表達力和自修正能力。
該研究為彌合機器學習與人腦神經可塑性之間的差距提供了新范式。通過模擬人腦中不同腦區的協同工作機制,嵌套學習架構使人工神經網絡首次具備類似的多尺度更新能力。這項突破不僅解決災難性遺忘的技術難題,更為開發真正具備持續學習能力的通用人工智能奠定基礎。











