在NeurIPS 2025會議上,谷歌一口氣發布了兩項突破性研究,針對大模型架構提出全新解決方案。通過引入“測試時訓練”機制,新架構成功將上下文處理窗口擴展至200萬token,同時保持高效計算能力。這項成果被業界視為對Transformer架構的重大升級,尤其在處理超長序列任務時展現出顯著優勢。
研究團隊指出,傳統Transformer架構的自注意力機制存在根本性缺陷:當序列長度增加時,計算復雜度呈平方級增長(O(N2))。盡管學界已嘗試線性循環網絡(RNNs)和狀態空間模型(SSMs)等替代方案,但這些方法在信息壓縮過程中往往丟失關鍵上下文。谷歌此次提出的Titans架構與MIRAS理論框架,通過動態記憶機制實現了速度與性能的平衡。
Titans架構的核心創新在于引入神經長期記憶模塊。與傳統RNN固定大小的記憶單元不同,該模塊采用多層感知機(MLP)結構,并在推理階段持續更新權重。其MAC變體通過將長期記憶作為額外上下文輸入注意力機制,在不改變基礎計算方式的前提下,顯著提升了模型對海量信息的概括能力。實驗數據顯示,該架構在“大海撈針”任務中保持高準確率的同時,成功將上下文窗口擴展至200萬token。
記憶模塊的更新策略借鑒了人類認知心理學中的“意外原則”。研究人員設計了“驚喜指標”來量化新輸入與當前記憶的差異程度:當輸入內容符合預期(如模型預測會出現動物詞匯時出現“貓”)時,系統僅作短期存儲;而當出現異常輸入(如財務報告中突然出現香蕉皮圖片)時,系統會優先將其納入長期記憶。這種選擇性更新機制使模型在保持高效的同時,精準捕捉關鍵信息。
作為理論支撐的MIRAS框架,則提供了序列建模的統一設計范式。該框架將任意序列模型解構為四個關鍵組件:內存架構、注意力偏差、保留門控和記憶算法。通過引入非歐幾里得目標函數,MIRAS允許使用更復雜的數學優化機制。基于該框架開發的YAAD、MONETA和MEMORA三個無注意力模型,在實驗中展現出超越Mamba 2等線性模型及同等規模Transformer的性能優勢。
性能對比實驗顯示,新架構在處理極長上下文時表現尤為突出。在參數規模顯著小于GPT-4等主流模型的情況下,其綜合性能仍保持領先。研究人員特別強調,這種優勢不僅體現在基準測試中,更在實際應用場景(如法律文書分析、科研文獻綜述)中得到驗證。谷歌團隊認為,這種混合架構為下一代大模型開發提供了全新思路。
在會議現場,谷歌首席科學家Jeff Dean回應了關于Transformer技術公開的爭議。當被問及是否后悔將這項改變AI格局的技術開源時,他明確表示:“Transformer對全球技術發展產生了深遠影響,這種開放共享的決策符合科技進步的本質。”這一表態引發與會者熱烈討論,多數專家認為,谷歌通過持續創新證明,技術領導力不在于固守既有成果,而在于不斷突破自我邊界。







