大模型領域迎來重要突破,月之暗面公司正式開源其自主研發的混合線性注意力架構Kimi Linear。該架構通過創新設計,在短上下文、長上下文及強化學習擴展機制等多個場景中,首次實現對傳統Transformer架構全注意力機制的全面超越。實驗數據顯示,新架構在保持模型質量的同時,將KV緩存使用率降低75%,并在百萬級Token上下文解碼任務中實現6倍吞吐量提升。
核心創新在于名為Kimi Delta Attention(KDA)的線性注意力模塊。研究團隊在Gated DeltaNet基礎上引入通道級對角門控機制,使每個特征維度具備獨立遺忘率。這種細粒度控制方式顯著優化了有限狀態RNN內存管理,配合Diagonal-Plus-LowRank矩陣的定制分塊并行算法,在保持經典delta規則一致性的前提下,將計算量大幅壓縮。實驗表明,該算子效率較傳統DPLR公式提升約100%。
架構設計采用3:1的混合比例,即每3層KDA模塊搭配1層全注意力層。這種交錯排列方式在生成長序列時,既能通過全注意力層維持全局信息流,又將內存占用降低75%。預訓練模型采用30億激活參數和480億總參數的規模,在1.4萬億token訓練數據上驗證了其優越性。評估覆蓋通用知識、數學推理、編程能力及中文任務四大領域,結果顯示新架構在BBH、MMLU、HellaSwag等基準測試中全面領先,數學競賽題AIME 2025和編程基準LiveCodeBench等高難度任務中同樣表現卓越。
效率優勢隨序列長度增加愈發顯著。在4k-16k短序列場景下,性能與全注意力機制持平;當序列長度擴展至128k時,速度開始明顯超越;處理512k序列時性能達到2.3倍,百萬級序列處理速度更提升至6倍。這種特性使其在強化學習場景中表現突出,特別是在需要處理擴展軌跡、工具交互和復雜決策空間的測試時擴展任務中,展現出傳統架構難以企及的優勢。
技術實現層面,研究團隊通過多組件協同提升模型表達能力。輸出門采用低秩參數化設計,在保持性能的同時緩解注意力陷阱問題;混合架構中3:1的層間比例經過大量實驗驗證為最優解;對所有MLA層移除位置編碼后,長上下文處理能力依然保持競爭力。合成任務測試顯示,新架構在需要精確記憶和邏輯推理的場景中,錯誤率較基線模型降低40%以上。











